什么是Aipex Browser
Aipex Browser 是一款基于 Model Context Protocol (MCP) 的浏览器自动化工具,通过 Chrome 扩展与 AI 智能体实现深度交互。它允许用户以自然语言指令控制 Chrome 浏览器,涵盖页面导航、元素点击、表单填写、截图捕获等常见操作。其核心架构由三部分组成:AI 智能体(MCP 客户端)通过标准输入输出与本地运行的 `aipex-mcp-bridge` 桥接程序通信,后者再通过 WebSocket 连接至已安装的 AIPex Chrome 扩展,最终调用浏览器原生 API 执行具体任务。这种分层设计确保了跨平台兼容性和低延迟响应,同时避免了传统浏览器自动化方案中复杂的驱动配置问题。 该工具特别适合需要频繁进行网页数据采集、自动化测试或交互式内容抓取的场景。例如,开发者可以利用它快速验证网页功能是否正常,产品经理可通过截图对比检查 UI 变更,而数据分析师则能自动提取表格内容并保存为结构化格式。由于支持多标签页管理和批量操作,用户可以在单个会话中完成复杂的多步骤工作流,如登录系统后遍历多个页面下载报告。此外,Aipex 还提供了像素级交互能力,在遇到非语义化 HTML 或 Canvas 渲染界面时,可结合屏幕坐标精准定位目标区域。
核心功能特点
- 支持自然语言驱动的浏览器操作,包括点击链接、填写表单、滚动页面和截取屏幕
- 提供超过30种细粒度工具,覆盖标签管理、UI交互、内容提取和文件下载等功能
- 采用 MCP 协议桥接架构,无需手动安装依赖,通过 npx 即可一键启动服务
- 具备智能元素识别机制,优先使用无障碍树 UID 定位元素,降低 token 消耗
- 支持多窗口多标签协同操作,可同时监控和管理多个浏览器实例
- 集成人类介入机制,可在自动化流程中暂停请求用户确认关键操作
适用场景
Aipex Browser 最典型的应用场景是网页自动化测试与回归验证。开发团队在部署新版本前,可使用该工具自动访问所有核心功能页面,依次触发按钮点击、表单提交等操作,并调用 `capture_screenshot` 比对视觉差异。相比人工逐项检查,这种方式不仅效率提升数倍,还能确保测试覆盖率一致。对于前端工程师而言,当遇到动态加载内容或 Shadow DOM 结构时,传统 DOM 查询方式往往失效,此时 Aipex 提供的 `search_elements` 结合 `computer` 工具仍能准确完成任务。 另一个高频使用场景是数据爬取与信息归档。研究人员或商业分析师经常需要从电商平台、新闻网站或政府公开数据库中定期收集结构化数据。借助 Aipex 的 `download_text_as_markdown` 和 `get_page_metadata` 功能,用户可将原始 HTML 转换为保留格式的文本文件,避免后续清洗成本。例如,某市场研究员每天定时运行脚本打开指定商品列表页,筛选出价格低于阈值的条目并导出为 CSV,整个过程完全无人值守。此外,在客户支持场景中,客服人员也可利用此工具模拟用户路径复现问题,快速定位故障环节。
