个人对 AI Agent 发展方向的一些理解

最近在了解 AI Agent 相关技术时，我逐渐形成了一个自己的理解：未来 AI 操作软件，大概率会沿着两条技术路线发展，同时软件的形态也可能发生变化——从”人直接使用软件”，转向”AI 调用软件能力”。

两条主要技术路线#

目前 AI Agent 操作软件，大致有两种方式。

第一种是 GUI 操作路线。

这种方式类似人类使用电脑或手机：AI 先通过截图获取当前界面，再利用视觉模型理解界面元素，例如按钮、输入框、菜单等，然后模拟鼠标点击或触控操作完成任务。很多 AI 助手演示中的”自动点按钮""自动填写表单”，本质上都是这种模式。例如豆包或 Claude Computer Use 的能力就属于这一类。

这种方式最大的优点是通用性非常强。理论上只要 AI 能看懂界面，就可以操作任何软件，不需要软件开发者专门为 AI 提供接口。因此它非常接近”AI 像人一样使用电脑”。

但缺点也很明显：

UI 一旦变化，自动操作就可能失败
操作流程较慢，需要不断截图和识别
稳定性相比 API 调用要差很多

因此在工程实践中，它往往更像一种兜底方案。

第二种是 API / 工具调用路线。

在这种模式下，AI 不再通过界面操作软件，而是直接调用软件提供的 API 或工具接口。例如 AI 在规划任务后选择某个工具函数执行，然后获得结果并继续下一步决策。这种方式的稳定性和效率都要高得多，因此目前很多 AI 系统更偏向这种路线。

软件正在出现”API 化”的趋势#

如果 AI 需要调用软件能力，那么软件就必须提供接口。因此一个明显的趋势是：软件正在逐渐 API 化。

过去的软件结构往往是：

人 → 打开软件 → 点击界面 → 完成功能

而未来可能变成：

人 → AI → AI 调用软件 API → 完成功能

在这种结构中，软件本身不再是用户直接交互的入口，而更像一个被调用的能力层。

这意味着 UI 不再是唯一入口，API 变得越来越重要。越来越多的软件开始提供 API、SDK 或插件系统，使 AI 可以直接调用它们的功能。

大厂正在争夺 Agent 入口#

如果未来用户越来越多地通过 AI 完成任务，那么 AI 本身就会变成新的入口。

过去互联网时代的重要入口包括：

搜索引擎
操作系统
App Store
超级应用

但如果用户的习惯变成”帮我订机票""帮我写报告""帮我整理邮件”，然后由 AI 自动完成所有步骤，那么用户可能不再需要主动打开具体软件。

在这种情况下：

用户 → AI Agent → 各种软件服务

AI Agent 就变成了新的流量入口。这也是为什么很多科技公司都在布局 AI 助手和 Agent 生态。

可能形成的三层技术架构#

从工程角度看，未来 AI Agent 操作世界的方式，很可能形成一种三层结构。

第一层：API / 工具调用

这是最优先使用的方式。只要软件提供 API，AI 就直接调用接口完成任务，效率最高、稳定性最好。

第二层：浏览器自动化

如果没有 API，但服务是网页形式，AI 可以通过浏览器自动化工具填写表单、点击页面元素等。

第三层：GUI 视觉操作

如果既没有 API，也无法通过浏览器自动化完成，那么 AI 才会退回到视觉识别 + 模拟点击的方式。

因此现实系统通常是一个混合架构：

优先 API，其次网页自动化，最后 GUI 操作兜底。

总结#

综合来看，我目前的理解是：

AI Agent 正在形成两条技术路线：一条是通过视觉识别和模拟点击直接操作 GUI，通用性强但稳定性较差；另一条是通过 API 或工具接口直接调用软件能力，因此推动软件逐渐 API 化。同时各大厂也在争夺 Agent 入口，因为未来用户可能不再直接打开软件，而是通过 AI 完成任务，软件逐渐退化为被调用的能力层。在技术实现上，Agent 系统很可能采用三层结构：优先调用 API，其次浏览器自动化，最后使用 GUI 操作作为兜底。

这只是我目前对 AI Agent 生态的一些理解，随着技术的发展，这些模式也可能继续演化。