Agent Browser

适用于AI智能体的浏览器自动化CLI工具,支持网页导航、表单填写、按钮点击及截图等网站交互操作。

安装

概览

什么是Agent Browser

Agent Browser 是一款专为 AI 智能体设计的浏览器自动化命令行工具,通过 Chrome/Chromium 的 CDP(Chrome DevTools Protocol)协议直接控制浏览器。它提供了一套简洁高效的 CLI 命令集,使开发者或 AI 系统能够以编程方式完成网页导航、表单填写、按钮点击、截图等常见交互操作。该工具支持跨平台安装,可通过 npm、Homebrew 或 Cargo 包管理器获取,并允许用户下载和管理本地 Chrome 实例。其核心设计理念是让自动化流程清晰直观:先打开页面,再通过快照获取元素引用标识符(如 @e1, @e2),然后利用这些引用执行具体操作,最后重新快照验证结果。这种模式特别适合需要稳定、可重复执行的自动化任务。

核心功能特点

  1. 基于 CDP 协议与 Chrome/Chromium 深度集成,无需依赖浏览器扩展即可实现精准控制
  2. 提供交互式元素快照功能,自动为可操作控件生成唯一引用标识符(@ref),避免定位器失效问题
  3. 支持命令链式调用(使用 && 连接),浏览器会话持久化运行,提升多步骤任务效率
  4. 内置多种认证机制:包括状态文件保存、持久化配置文件、加密凭证库及会话自动恢复
  5. 具备强大的视觉调试能力:支持带标注的截图、页面差异对比、视频录制和性能剖析

适用场景

Agent Browser 特别适用于需要长期稳定运行的自动化场景,例如网页数据采集、测试用例执行和监控告警脚本。对于频繁访问同一站点的爬虫项目,可通过‘状态文件’或‘会话名称’机制保存登录态,后续每次启动自动加载 Cookie 和 localStorage,极大简化身份验证流程。在 UI 回归测试中,结合 `diff snapshot` 和 `diff screenshot` 可实现像素级变化检测,快速发现因前端更新导致的功能异常。若需模拟移动端用户体验,可使用 `–device` 参数切换至 iPhone 14 等设备模型,并配合触控手势完成滑动、缩放等操作。此外,针对复杂业务系统(如 SaaS 后台),推荐使用 Auth Vault 存储加密凭据,既保证安全性又便于 LLM 安全调用。对于并行运行多个独立代理的情况,命名会话(–session)能有效隔离资源,防止竞争条件。