什么是Agent Browser

Agent Browser 是一款专为 AI 智能体设计的浏览器自动化命令行工具，通过 Chrome/Chromium 的 CDP（Chrome DevTools Protocol）协议直接控制浏览器。它提供了一套简洁高效的 CLI 命令集，使开发者或 AI 系统能够以编程方式完成网页导航、表单填写、按钮点击、截图等常见交互操作。该工具支持跨平台安装，可通过 npm、Homebrew 或 Cargo 包管理器获取，并允许用户下载和管理本地 Chrome 实例。其核心设计理念是让自动化流程清晰直观：先打开页面，再通过快照获取元素引用标识符（如 @e1, @e2），然后利用这些引用执行具体操作，最后重新快照验证结果。这种模式特别适合需要稳定、可重复执行的自动化任务。

核心功能特点

基于 CDP 协议与 Chrome/Chromium 深度集成，无需依赖浏览器扩展即可实现精准控制
提供交互式元素快照功能，自动为可操作控件生成唯一引用标识符（@ref），避免定位器失效问题
支持命令链式调用（使用 && 连接），浏览器会话持久化运行，提升多步骤任务效率
内置多种认证机制：包括状态文件保存、持久化配置文件、加密凭证库及会话自动恢复
具备强大的视觉调试能力：支持带标注的截图、页面差异对比、视频录制和性能剖析

适用场景

Agent Browser 特别适用于需要长期稳定运行的自动化场景，例如网页数据采集、测试用例执行和监控告警脚本。对于频繁访问同一站点的爬虫项目，可通过‘状态文件’或‘会话名称’机制保存登录态，后续每次启动自动加载 Cookie 和 localStorage，极大简化身份验证流程。在 UI 回归测试中，结合 `diff snapshot` 和 `diff screenshot` 可实现像素级变化检测，快速发现因前端更新导致的功能异常。若需模拟移动端用户体验，可使用 `–device` 参数切换至 iPhone 14 等设备模型，并配合触控手势完成滑动、缩放等操作。此外，针对复杂业务系统（如 SaaS 后台），推荐使用 Auth Vault 存储加密凭据，既保证安全性又便于 LLM 安全调用。对于并行运行多个独立代理的情况，命名会话（–session）能有效隔离资源，防止竞争条件。

概览

什么是Agent Browser

核心功能特点

适用场景

相关推荐

Agent Browser

Openclaw Skill Money Idea Generator

股票

Openclaw Skill Gastown

Antigravity Quota

联网搜索一键配置 · Tavily One-Step

Chrome Devtools Mcp

Stock Price Query