Browser Use

自动化浏览器交互,用于网页测试、表单填充、截图和数据提取。当用户需要浏览网站、与网页元素交互或从网页收集信息时使用。

安装

概览

什么是Browser Use

Browser Use 是一个面向命令行的浏览器自动化工具,主要用来把“打开网页、查看页面状态、点击元素、输入内容、等待结果、提取数据”这些原本需要手动完成的操作串成可重复执行的流程。它适合网页测试、批量表单填充、页面截图和信息采集这类任务,尤其是在一个流程需要跨越多个步骤、多个页面时,比单次脚本更强调会话持续性:浏览器不会在每条命令后立刻关闭,前一步的页面状态、跳转结果和上下文都能保留下来。

它的工作方式比较直接。先打开目标网址,再通过 state 查看当前页面的可点击元素和索引,然后用 click、input、select、keys 等命令完成交互,最后用 state 或 screenshot 验证结果。这样的设计把复杂网页操作拆成了一组清晰的原子动作,既适合人工逐步控制,也方便外部程序按顺序调用。除了基础导航,它还能读取标题、HTML、文本、表单值、元素属性和位置信息,也支持执行 JavaScript,用于更灵活的数据获取。

从运行环境看,Browser Use 提供了几种不同模式。默认的 chromium 模式强调隔离和速度,适合常规自动化;real 模式可以调用真实 Chrome,并在需要时使用本地已有的浏览器配置文件,因此能够延续已有登录状态、Cookie 和扩展环境;remote 模式则把浏览器放到云端运行,并带有代理、会话复用、任务跟踪等能力,适合需要远程执行或并行跑任务的场景。对开发者来说,这意味着它既能作为本机命令行工具使用,也能扩展为带云端浏览器的自动化入口。

核心功能特点

  1. 以持久化会话为核心,浏览器状态可跨命令保留,便于执行多步骤网页流程
  2. 先用 state 获取页面元素索引,再进行点击、输入、选择、悬停、双击等精确交互
  3. 支持截图、读取标题与 HTML、提取文本和值、执行 JavaScript,兼顾验证与采集
  4. 提供 chromium、真实 Chrome、云端 remote 三种模式,可在隔离环境、本地登录态和远程浏览之间切换
  5. 内置任务、会话、Cookie 与配置文件管理能力,还可通过隧道让云端浏览器访问本地开发服务

适用场景

如果团队经常做回归测试或页面流程验证,Browser Use 的价值会比较明显。比如检查一个站点的登录后跳转、后台表单提交流程,或者验证某个按钮点击后页面是否出现指定文本,都可以用“打开页面—查看元素—执行交互—等待条件—截图确认”的方式完成。它支持等待选择器出现、隐藏或文本出现,这让很多依赖异步加载的页面不必靠硬编码延时去碰运气,测试过程也更容易复现和排查。

在运营和业务自动化中,它也适合处理重复性网页动作,例如批量填写表单、在固定后台系统中录入信息、抓取页面上某些结构化内容,或按步骤导出页面数据。因为工具能够直接读取页面文本、HTML、表单值和元素属性,也能执行简单 JavaScript,所以它不只是“代替人点击”,还适合把页面中的信息提取出来交给后续程序处理。对于需要人工登录的网站,如果使用真实 Chrome 配置文件或同步后的云端配置文件,还可以在已有会话基础上继续工作,减少重复登录。

对开发和数据团队来说,remote 模式更适合远程采集、并行研究和代理环境下的浏览任务。它可以把任务提交到云端浏览器执行,随后通过 task status 跟踪进度,用 session 管理独立会话,必要时复用同一会话延续状态。这种方式适合把多个研究任务拆开并行运行,例如分别收集不同站点的信息,或者让同一会话连续完成一组相关操作。若本地有开发中的 Web 服务,还能通过隧道暴露端口,让云端浏览器直接访问本机页面,用于远程调试和截图验证。