Agent Browser

快速、基于 Rust 的无头浏览器自动化 CLI,支持 Node.js 降级,可让 AI 代理通过结构化命令导航、点击、输入和截取页面快照。

安装

概览

什么是Agent Browser

Agent Browser 是一款基于 Rust 构建的高性能无头浏览器自动化 CLI 工具,专为 AI 代理和开发者设计,用于快速、可靠地控制浏览器执行导航、交互和数据提取等任务。它通过简洁的命令行接口提供对 Chromium 浏览器的全面控制,支持结构化输出和机器可读格式,极大提升了自动化脚本的可维护性和集成效率。该工具的核心优势在于其轻量级架构与 Node.js 兼容层,使得原本需要复杂 Puppeteer 或 Playwright 配置的浏览器操作得以简化为一行命令。Agent Browser 特别适合在 CI/CD 环境、数据抓取流水线或 AI 驱动的网页测试场景中部署,无需图形界面即可实现完整的用户行为模拟。无论是进行端到端测试、监控网页状态变化,还是辅助训练视觉语言模型,Agent Browser 都能以极低的资源开销提供稳定可靠的浏览器控制能力。

核心功能特点

  1. 基于 Rust 构建,具备高性能和低内存占用的无头浏览器自动化工具
  2. 支持通过命令行直接执行页面导航、元素点击、表单填写等基础交互操作
  3. 提供结构化快照功能,自动识别并标记可交互元素(如按钮、输入框),生成稳定引用标识符(@e1, @e2)
  4. 内置多种等待机制,包括网络空闲、元素出现、文本匹配和自定义 JavaScript 条件判断
  5. 支持多会话隔离、Cookie 管理、本地存储操作及网络请求拦截与模拟
  6. 可录制视频回放、截取全屏或局部截图,并支持导出 PDF 文档用于演示或存档

适用场景

Agent Browser 最适用于需要自动化浏览器操作的各类开发与维护场景。在 AI 代理系统中,它可以作为智能体与环境交互的桥梁,让模型通过自然语言指令驱动浏览器完成登录、表单提交、信息检索等复杂流程,而无需依赖图像识别或 OCR 技术。对于前端开发者而言,该工具是理想的端到端测试助手,能够模拟真实用户路径验证页面响应、动态内容加载及跨设备兼容性,尤其适合在无 GUI 的服务器环境中运行自动化测试套件。此外,在数据采集与信息聚合类项目中,Agent Browser 可通过精准定位页面元素并提取文本、HTML 或属性值,高效完成结构化数据的批量获取任务。其支持的状态保存与恢复机制也使其成为多步骤工作流(如电商比价、内容审核)的理想选择——用户可先手动完成身份认证,再将会话状态持久化,后续脚本自动复用登录凭证访问受保护内容。无论是构建持续集成管道、开发浏览器插件、还是训练强化学习智能体,Agent Browser 都提供了灵活且可扩展的控制接口。