Claude for Safari

使用AppleScript和屏幕截图控制macOS上用户的真实Safari浏览器,适用于用户需要与Safari交互的场景。

安装

概览

什么是Claude for Safari

Claude for Safari 是一款专为 macOS 用户设计的浏览器自动化工具,它通过 AppleScript 和系统截图功能直接控制用户的真实 Safari 浏览器会话。与依赖扩展或模拟浏览器的方案不同,该工具无需额外安装插件,即可访问用户当前登录状态、Cookie 数据以及所有已打开标签页的完整上下文环境。其核心原理是利用 macOS 的 `osascript` 命令调用 Safari 的原生 AppleScript 接口,并结合 `screencapture` 实现窗口内容捕获,从而实现对真实浏览器环境的深度操作。这一特性使其特别适用于需要与已认证网站交互、维护登录态或处理复杂网页动态内容的自动化任务。 该工具支持多种基础浏览器操作,包括列出所有打开的标签页、读取页面文本内容、执行自定义 JavaScript 代码、截取当前窗口画面等。其中,页面内容读取功能不仅提供纯文本输出,还支持提取结构化信息如标题、元描述、各级标题层级等;而 DOM 简化读取则模拟了类似 Chrome ACP 的行为,过滤掉脚本、样式等非内容元素后生成可读性更强的页面结构摘要。此外,工具还提供了表单填充、元素点击、滚动控制、标签切换等高级交互能力,并通过 JavaScript 注入方式确保与 React、Vue 等现代前端框架构建的应用兼容。 为了确保功能正常运行,用户需在系统设置中开启两项关键权限:一是允许终端应用(如 Terminal、iTerm2 或 Warp)控制 Safari 的自动化权限;二是启用 Safari 开发者菜单中的“允许来自 Apple 事件的 JavaScript”选项。截图功能则根据是否授予屏幕录制权限自动选择后台静默截图或前台短暂激活的方式完成,兼顾用户体验与功能完整性。

核心功能特点

  1. 直接控制用户真实 Safari 浏览器会话,保留登录状态与 Cookie
  2. 支持列出所有打开标签页、读取页面内容与执行任意 JavaScript
  3. 提供结构化页面信息提取(标题、描述、H1/H2 等)
  4. 具备表单填写、元素点击、滚动及标签切换等交互能力
  5. 智能适配两种截图模式:后台静默截图或前台区域捕获
  6. 兼容主流前端框架(React/Vue/Angular),正确触发事件处理器

适用场景

Claude for Safari 最典型的应用场景是那些需要与已登录网站进行深度交互的自动化流程。例如,在抓取需要身份验证才能访问的内容时,传统爬虫无法维持会话状态,而 Claude for Safari 可直接复用用户已有的登录凭证,访问个人账户页面、订单历史或会员专属信息。这对于电商比价、社交媒体监控或企业内部系统数据采集尤为有用。另一个常见场景是网页测试与调试——开发者可以通过该工具快速获取当前页面的完整文本快照,分析布局结构,甚至模拟用户操作路径来验证功能逻辑。 在处理单页应用(SPA)或高度动态化的网站时,Claude for Safari 的优势更加明显。由于它通过原生 JavaScript 执行而非模拟点击,能够准确触发 React 组件的状态更新和事件回调,避免因框架限制导致的交互失败。比如在一个复杂的表单提交过程中,工具不仅能填入字段值,还能确保 React 正确识别变更并更新界面反馈。此外,结合截图反馈循环的工作流,用户可以先执行某个操作(如点击按钮),再通过图像识别判断结果是否符合预期,从而实现视觉驱动的自动化决策。 对于需要跨平台协作但受限于浏览器环境的团队而言,Claude for Safari 提供了一个轻量级且无需部署插件的解决方案。它不依赖云端服务或第三方代理,所有操作均在本地完成,保障了数据隐私与安全。无论是用于个人效率提升,还是集成到自动化脚本中批量处理任务,该工具都展现出了强大的实用性和灵活性。