1258 字
6 分钟
个人对 AI Agent 发展方向的一些理解

最近在了解 AI Agent 相关技术时,我逐渐形成了一个自己的理解:未来 AI 操作软件,大概率会沿着两条技术路线发展,同时软件的形态也可能发生变化——从”人直接使用软件”,转向”AI 调用软件能力”。

两条主要技术路线#

目前 AI Agent 操作软件,大致有两种方式。

第一种是 GUI 操作路线。

这种方式类似人类使用电脑或手机:AI 先通过截图获取当前界面,再利用视觉模型理解界面元素,例如按钮、输入框、菜单等,然后模拟鼠标点击或触控操作完成任务。很多 AI 助手演示中的”自动点按钮""自动填写表单”,本质上都是这种模式。例如豆包或 Claude Computer Use 的能力就属于这一类。

这种方式最大的优点是通用性非常强。理论上只要 AI 能看懂界面,就可以操作任何软件,不需要软件开发者专门为 AI 提供接口。因此它非常接近”AI 像人一样使用电脑”。

但缺点也很明显:

  • UI 一旦变化,自动操作就可能失败
  • 操作流程较慢,需要不断截图和识别
  • 稳定性相比 API 调用要差很多

因此在工程实践中,它往往更像一种兜底方案

第二种是 API / 工具调用路线。

在这种模式下,AI 不再通过界面操作软件,而是直接调用软件提供的 API 或工具接口。例如 AI 在规划任务后选择某个工具函数执行,然后获得结果并继续下一步决策。这种方式的稳定性和效率都要高得多,因此目前很多 AI 系统更偏向这种路线。

软件正在出现”API 化”的趋势#

如果 AI 需要调用软件能力,那么软件就必须提供接口。因此一个明显的趋势是:软件正在逐渐 API 化

过去的软件结构往往是:

人 → 打开软件 → 点击界面 → 完成功能

而未来可能变成:

人 → AI → AI 调用软件 API → 完成功能

在这种结构中,软件本身不再是用户直接交互的入口,而更像一个被调用的能力层

这意味着 UI 不再是唯一入口,API 变得越来越重要。越来越多的软件开始提供 API、SDK 或插件系统,使 AI 可以直接调用它们的功能。

大厂正在争夺 Agent 入口#

如果未来用户越来越多地通过 AI 完成任务,那么 AI 本身就会变成新的入口。

过去互联网时代的重要入口包括:

  • 搜索引擎
  • 操作系统
  • App Store
  • 超级应用

但如果用户的习惯变成”帮我订机票""帮我写报告""帮我整理邮件”,然后由 AI 自动完成所有步骤,那么用户可能不再需要主动打开具体软件

在这种情况下:

用户 → AI Agent → 各种软件服务

AI Agent 就变成了新的流量入口。这也是为什么很多科技公司都在布局 AI 助手和 Agent 生态。

可能形成的三层技术架构#

从工程角度看,未来 AI Agent 操作世界的方式,很可能形成一种三层结构

第一层:API / 工具调用

这是最优先使用的方式。只要软件提供 API,AI 就直接调用接口完成任务,效率最高、稳定性最好。

第二层:浏览器自动化

如果没有 API,但服务是网页形式,AI 可以通过浏览器自动化工具填写表单、点击页面元素等。

第三层:GUI 视觉操作

如果既没有 API,也无法通过浏览器自动化完成,那么 AI 才会退回到视觉识别 + 模拟点击的方式。

因此现实系统通常是一个混合架构

优先 API,其次网页自动化,最后 GUI 操作兜底。

总结#

综合来看,我目前的理解是:

AI Agent 正在形成两条技术路线:一条是通过视觉识别和模拟点击直接操作 GUI,通用性强但稳定性较差;另一条是通过 API 或工具接口直接调用软件能力,因此推动软件逐渐 API 化。同时各大厂也在争夺 Agent 入口,因为未来用户可能不再直接打开软件,而是通过 AI 完成任务,软件逐渐退化为被调用的能力层。在技术实现上,Agent 系统很可能采用三层结构:优先调用 API,其次浏览器自动化,最后使用 GUI 操作作为兜底。

这只是我目前对 AI Agent 生态的一些理解,随着技术的发展,这些模式也可能继续演化。

个人对 AI Agent 发展方向的一些理解
https://hyglgithub.github.io/AstroBlog/posts/20260310/
作者
Wok
发布于
2026-03-10
许可协议
CC BY-NC-SA 4.0