什么是Agent Browser
Agent Browser 是一款面向 AI 智能体使用场景设计的无头浏览器自动化命令行工具。它的核心思路不是依赖传统网页坐标或脆弱的选择器去“猜”页面元素,而是先读取页面的无障碍树快照,再把页面中的交互对象整理成带引用编号的结构化结果。这样一来,智能体可以先获取页面快照,识别出按钮、输入框、链接等元素对应的 ref,再继续执行点击、填写、读取文本等动作,整个流程更像是在操作一份稳定的页面语义地图。
从证据包给出的定位看,这个工具尤其强调“确定性选择”和执行效率。对于多步骤流程、复杂单页应用、对性能敏感的任务,或者需要把不同账号、不同角色放在隔离浏览器上下文里并行操作的情况,它比偏视觉分析导向的浏览器工具更合适。它并不把截图、PDF 或视觉检查作为第一优先级,而是优先服务于自动化链路:打开页面、抓取 JSON 快照、依据 ref 执行动作、页面变化后再次快照,以此形成可重复、可解析的闭环。
Agent Browser 提供的能力也比较完整。除了打开、回退、刷新、关闭页面,以及点击、填充、输入、悬停、勾选、选择、拖拽、滚动等基础交互外,它还能读取文本、HTML、属性、标题、URL 和计数,检查元素是否可见、可用或已勾选,并通过等待元素、等待文本、等待 URL、等待网络空闲、等待自定义条件等方式控制自动化节奏。工具还支持会话隔离、状态保存与加载、标签页与 iframe 切换、Cookie 和本地存储读写、网络请求拦截与 mock,说明它覆盖的不只是“点页面”,而是面向真实业务流程的浏览器自动化控制面。
核心功能特点
- 基于无障碍树快照生成结构化 refs,用引用而不是脆弱选择器定位交互元素
- 围绕“打开页面—抓取 JSON 快照—按 ref 操作—重新快照”构建确定性自动化流程
- 支持点击、填写、选择、拖拽、读取文本与属性、状态检查、条件等待等常用浏览器操作
- 可通过独立 session 隔离不同浏览器上下文,并保存或加载认证状态以跳过重复登录
- 提供标签页、iframe、Cookie、本地存储和网络路由控制,适合复杂网页与测试场景
适用场景
如果读者关注的是 AI 智能体如何稳定地操作网站,Agent Browser 最直接的应用就是多步骤业务流程自动化。比如一个任务需要依次打开页面、定位搜索框、输入内容、提交、等待结果加载,再提取列表中的文本和链接信息,传统做法往往容易因为页面结构微调而失效;而在 Agent Browser 的模式里,智能体先拿到交互元素快照,再依据 ref 逐步执行,页面有变化就重新抓取快照,这种节奏更适合让模型在动态网页中持续“看懂—决策—执行”。
它也很适合复杂 SPA 或异步交互密集的后台系统。证据包中专门提到性能关键、复杂单页应用、会话隔离等使用理由,说明这类工具并不是单纯面向静态页面抓取,而是偏向那些依赖前端状态切换、局部更新和网络请求完成时机的场景。通过等待 networkidle、等待文本出现、等待 URL 命中模式,配合读取元素状态和页面信息,自动化流程可以更谨慎地推进,减少“页面还没准备好就继续操作”的问题。
在测试与运营支持场景里,它的 session 与状态持久化能力也很实用。例如同一套应用需要同时验证管理员和普通用户的行为差异,就可以用不同 session 打开隔离的浏览器上下文,分别加载各自的认证状态并并行操作;如果任务的主要时间都浪费在重复登录上,还可以先保存 cookies 与存储状态,后续直接加载。再加上网络路由拦截、请求查看、标签页切换和 iframe 切换等能力,它不仅适合做网页任务执行器,也适合做 AI 驱动的流程测试、数据提取和多角色验证工具。
