Agent Browser 0.2.0

一款基于 Rust 的快速无头浏览器自动化 CLI,支持 Node.js 回退,允许 AI 智能体通过结构化命令实现页面导航、点击、输入和快照。

安装

概览

什么是Agent Browser 0.2.0

Agent Browser 0.2.0 是一款面向命令行使用的无头浏览器自动化工具,核心实现基于 Rust,同时提供 Node.js 回退方案。它的定位很明确:不是给人手动点网页用的浏览器,而是给脚本、自动化流程以及 AI 智能体调用的浏览器操作层。用户可以通过一组结构化命令完成打开页面、抓取页面结构、点击按钮、填写表单、读取信息等动作,把原本依赖图形界面的网页交互拆成可编排的终端指令。

这款工具的工作方式有一个很鲜明的特点:先对页面做 snapshot,再基于返回的元素引用继续操作。比如命令会给交互元素分配类似 @e1、@e2 的引用,后续点击、输入、读取文本等操作都围绕这些引用展开。这种方式比单纯依赖脆弱的选择器更适合自动化场景,尤其适合让模型或脚本先“看见”页面结构,再决定下一步动作。文档也强调,页面导航或 DOM 发生明显变化后需要重新抓取快照,以保证引用仍然有效。

从能力覆盖看,Agent Browser 已经不只是“打开网页并点几下”这么简单。它包含导航、表单交互、键盘鼠标控制、截图与 PDF 导出、视频录制、等待条件、标签页与窗口切换、iframe 切换、弹窗处理、JavaScript 执行、Cookie 与本地存储管理、网络请求拦截与 mock、会话状态保存与加载,以及面向调试的控制台、错误信息、元素高亮和 trace 记录。再配合 –json 输出,它既能供人直接在终端使用,也能作为上层系统可解析的浏览器执行接口。

核心功能特点

  1. 以“快照 + 元素引用”的交互模型驱动浏览器操作,便于脚本和 AI 智能体稳定执行点击、输入、读取等动作
  2. 命令面覆盖完整网页自动化流程,包含导航、等待、表单交互、标签页与 iframe 切换、弹窗处理及键鼠控制
  3. 支持截图、整页截图、PDF 导出和 WebM 录制,可用于结果留存、演示回放与问题复现
  4. 可读取标题、文本、属性、输入值、元素数量与可见性等状态,并支持 JSON 输出供程序继续处理
  5. 提供会话隔离、状态保存加载、Cookie 与 localStorage 管理,以及网络拦截、阻断和 mock 能力
  6. 自带调试链路,支持有头模式、控制台与页面错误查看、元素高亮、trace 录制和通过 CDP 连接现有浏览器

适用场景

如果团队正在为 AI 智能体补齐“会操作网页”的执行能力,Agent Browser 会是很直接的一类基础工具。它把网页理解和网页操作之间的接口尽量结构化:先抓取页面快照识别可交互元素,再按引用去执行点击、填写、读取和等待。这种模式很适合接在代理系统、测试代理或工作流编排器后面,让模型不用直接生成大量脆弱的前端选择器,就能完成登录、表单提交、后台页面巡检等常见任务。对需要机器可解析结果的场景,–json 输出也方便上游程序消费。

在测试与质量保障场景里,它适合承担轻量但覆盖面广的浏览器自动化工作。比如验证表单提交流程、检查页面跳转是否到达预期 URL、确认按钮是否可见可用、统计某类元素数量,或者在故障排查时抓取控制台信息和页面错误。网络路由能力还能用于拦截请求、阻断资源或伪造响应,这意味着前后端联调、异常分支验证、离线模式测试等工作也可以放进同一套 CLI 流程中,而不必切换到另一类专门工具。

它也适合做需要“留痕”的自动化任务。截图、PDF 导出和视频录制使它不仅能执行步骤,还能把执行结果保存下来,便于演示、回归对比和问题复现。状态保存与加载则适合需要重复使用登录态的内部系统,例如先登录一次并保存会话,后续直接进入 dashboard 或报表页继续操作。对并行任务较多的用户,独立 session 还能把不同站点或不同账号隔离开来,减少互相污染的风险。总体看,Agent Browser 更像一个为终端、脚本和智能体准备的浏览器执行层,适合需要稳定、可编排、可调试网页自动化能力的开发与运维场景。