什么是Agent Browser

Agent Browser 是一款面向 AI 智能体使用场景设计的无头浏览器自动化命令行工具。它的核心思路不是依赖传统网页坐标或脆弱的选择器去“猜”页面元素，而是先读取页面的无障碍树快照，再把页面中的交互对象整理成带引用编号的结构化结果。这样一来，智能体可以先获取页面快照，识别出按钮、输入框、链接等元素对应的 ref，再继续执行点击、填写、读取文本等动作，整个流程更像是在操作一份稳定的页面语义地图。

从证据包给出的定位看，这个工具尤其强调“确定性选择”和执行效率。对于多步骤流程、复杂单页应用、对性能敏感的任务，或者需要把不同账号、不同角色放在隔离浏览器上下文里并行操作的情况，它比偏视觉分析导向的浏览器工具更合适。它并不把截图、PDF 或视觉检查作为第一优先级，而是优先服务于自动化链路：打开页面、抓取 JSON 快照、依据 ref 执行动作、页面变化后再次快照，以此形成可重复、可解析的闭环。

Agent Browser 提供的能力也比较完整。除了打开、回退、刷新、关闭页面，以及点击、填充、输入、悬停、勾选、选择、拖拽、滚动等基础交互外，它还能读取文本、HTML、属性、标题、URL 和计数，检查元素是否可见、可用或已勾选，并通过等待元素、等待文本、等待 URL、等待网络空闲、等待自定义条件等方式控制自动化节奏。工具还支持会话隔离、状态保存与加载、标签页与 iframe 切换、Cookie 和本地存储读写、网络请求拦截与 mock，说明它覆盖的不只是“点页面”，而是面向真实业务流程的浏览器自动化控制面。

核心功能特点

基于无障碍树快照生成结构化 refs，用引用而不是脆弱选择器定位交互元素
围绕“打开页面—抓取 JSON 快照—按 ref 操作—重新快照”构建确定性自动化流程
支持点击、填写、选择、拖拽、读取文本与属性、状态检查、条件等待等常用浏览器操作
可通过独立 session 隔离不同浏览器上下文，并保存或加载认证状态以跳过重复登录
提供标签页、iframe、Cookie、本地存储和网络路由控制，适合复杂网页与测试场景

适用场景

如果读者关注的是 AI 智能体如何稳定地操作网站，Agent Browser 最直接的应用就是多步骤业务流程自动化。比如一个任务需要依次打开页面、定位搜索框、输入内容、提交、等待结果加载，再提取列表中的文本和链接信息，传统做法往往容易因为页面结构微调而失效；而在 Agent Browser 的模式里，智能体先拿到交互元素快照，再依据 ref 逐步执行，页面有变化就重新抓取快照，这种节奏更适合让模型在动态网页中持续“看懂—决策—执行”。

它也很适合复杂 SPA 或异步交互密集的后台系统。证据包中专门提到性能关键、复杂单页应用、会话隔离等使用理由，说明这类工具并不是单纯面向静态页面抓取，而是偏向那些依赖前端状态切换、局部更新和网络请求完成时机的场景。通过等待 networkidle、等待文本出现、等待 URL 命中模式，配合读取元素状态和页面信息，自动化流程可以更谨慎地推进，减少“页面还没准备好就继续操作”的问题。

在测试与运营支持场景里，它的 session 与状态持久化能力也很实用。例如同一套应用需要同时验证管理员和普通用户的行为差异，就可以用不同 session 打开隔离的浏览器上下文，分别加载各自的认证状态并并行操作；如果任务的主要时间都浪费在重复登录上，还可以先保存 cookies 与存储状态，后续直接加载。再加上网络路由拦截、请求查看、标签页切换和 iframe 切换等能力，它不仅适合做网页任务执行器，也适合做 AI 驱动的流程测试、数据提取和多角色验证工具。

概览

什么是Agent Browser

核心功能特点

适用场景

相关推荐

Agent Browser

Openclaw Skill Money Idea Generator

股票

Openclaw Skill Gastown

Antigravity Quota

联网搜索一键配置 · Tavily One-Step

Chrome Devtools Mcp

Stock Price Query