最近在了解 AI Agent 相关技术时,我逐渐形成了一个自己的理解:未来 AI 操作软件,大概率会沿着两条技术路线发展,同时软件的形态也可能发生变化——从”人直接使用软件”,转向”AI 调用软件能力”。
两条主要技术路线
目前 AI Agent 操作软件,大致有两种方式。
第一种是 GUI 操作路线。
这种方式类似人类使用电脑或手机:AI 先通过截图获取当前界面,再利用视觉模型理解界面元素,例如按钮、输入框、菜单等,然后模拟鼠标点击或触控操作完成任务。很多 AI 助手演示中的”自动点按钮""自动填写表单”,本质上都是这种模式。例如豆包或 Claude Computer Use 的能力就属于这一类。
这种方式最大的优点是通用性非常强。理论上只要 AI 能看懂界面,就可以操作任何软件,不需要软件开发者专门为 AI 提供接口。因此它非常接近”AI 像人一样使用电脑”。
但缺点也很明显:
- UI 一旦变化,自动操作就可能失败
- 操作流程较慢,需要不断截图和识别
- 稳定性相比 API 调用要差很多
因此在工程实践中,它往往更像一种兜底方案。
第二种是 API / 工具调用路线。
在这种模式下,AI 不再通过界面操作软件,而是直接调用软件提供的 API 或工具接口。例如 AI 在规划任务后选择某个工具函数执行,然后获得结果并继续下一步决策。这种方式的稳定性和效率都要高得多,因此目前很多 AI 系统更偏向这种路线。
软件正在出现”API 化”的趋势
如果 AI 需要调用软件能力,那么软件就必须提供接口。因此一个明显的趋势是:软件正在逐渐 API 化。
过去的软件结构往往是:
人 → 打开软件 → 点击界面 → 完成功能
而未来可能变成:
人 → AI → AI 调用软件 API → 完成功能
在这种结构中,软件本身不再是用户直接交互的入口,而更像一个被调用的能力层。
这意味着 UI 不再是唯一入口,API 变得越来越重要。越来越多的软件开始提供 API、SDK 或插件系统,使 AI 可以直接调用它们的功能。
大厂正在争夺 Agent 入口
如果未来用户越来越多地通过 AI 完成任务,那么 AI 本身就会变成新的入口。
过去互联网时代的重要入口包括:
- 搜索引擎
- 操作系统
- App Store
- 超级应用
但如果用户的习惯变成”帮我订机票""帮我写报告""帮我整理邮件”,然后由 AI 自动完成所有步骤,那么用户可能不再需要主动打开具体软件。
在这种情况下:
用户 → AI Agent → 各种软件服务
AI Agent 就变成了新的流量入口。这也是为什么很多科技公司都在布局 AI 助手和 Agent 生态。
可能形成的三层技术架构
从工程角度看,未来 AI Agent 操作世界的方式,很可能形成一种三层结构。
第一层:API / 工具调用
这是最优先使用的方式。只要软件提供 API,AI 就直接调用接口完成任务,效率最高、稳定性最好。
第二层:浏览器自动化
如果没有 API,但服务是网页形式,AI 可以通过浏览器自动化工具填写表单、点击页面元素等。
第三层:GUI 视觉操作
如果既没有 API,也无法通过浏览器自动化完成,那么 AI 才会退回到视觉识别 + 模拟点击的方式。
因此现实系统通常是一个混合架构:
优先 API,其次网页自动化,最后 GUI 操作兜底。
总结
综合来看,我目前的理解是:
AI Agent 正在形成两条技术路线:一条是通过视觉识别和模拟点击直接操作 GUI,通用性强但稳定性较差;另一条是通过 API 或工具接口直接调用软件能力,因此推动软件逐渐 API 化。同时各大厂也在争夺 Agent 入口,因为未来用户可能不再直接打开软件,而是通过 AI 完成任务,软件逐渐退化为被调用的能力层。在技术实现上,Agent 系统很可能采用三层结构:优先调用 API,其次浏览器自动化,最后使用 GUI 操作作为兜底。
这只是我目前对 AI Agent 生态的一些理解,随着技术的发展,这些模式也可能继续演化。