Mac Use 1.0.0

可视化控制 macOS 应用,支持截图、点击、滚动、输入。用于与 Mac 桌面应用的图形界面交互。

安装

概览

什么是Mac Use 1.0.0

Mac Use 是一款专为 macOS 设计的自动化工具,通过截图识别与 OCR 技术实现对任意图形界面应用的精准控制。它利用 Apple Vision 框架对屏幕内容进行文本识别,将检测到的元素自动编号并标注在可视化图像上,从而为后续的交互操作提供直观依据。用户只需调用简单的命令行指令,即可完成对目标应用窗口的点击、输入、滚动和按键等操作。整个流程遵循‘截图→定位→操作→验证’的闭环逻辑,确保每一步都能准确执行并反馈结果。该工具特别适用于那些无法通过传统 API 或脚本直接控制的桌面应用程序,为 macOS 上的 GUI 自动化开辟了新的可能性。

核心功能特点

  1. 基于 Apple Vision OCR 实现高精度文本元素识别,支持多语言字符检测
  2. 自动生成带编号标注的截图图像,便于人工核对与选择交互目标
  3. 提供 clicknum 优先点击方式,支持按元素编号快速定位并触发操作
  4. 兼容直接坐标点击(click)作为备用方案,适用于无文本图标按钮
  5. 集成滚动、键盘输入、组合键等多种交互方式,满足复杂操作需求
  6. 自动激活目标窗口并处理多窗口场景,支持通过 ID 精确指定操作对象

适用场景

Mac Use 的核心价值在于解决 macOS 环境下图形界面应用的自动化难题,尤其适合需要重复性人机交互的场景。例如,在微信中打开美团小程序点餐时,可通过截图识别‘搜索’按钮,点击后输入‘炸鸡’进行查询,再从结果列表中选取餐厅下单——整个过程无需编写 UI 驱动代码,仅靠自然语言指令即可完成。对于日常办公中频繁切换多个应用窗口的情况,该工具也能有效提升效率:比如批量处理邮件回复、填写表单或整理文档时,可结合截图验证机制确保每步操作无误。此外,由于依赖系统原生组件(如 screencapture 和 Python3),其运行稳定性高且对环境要求较低,非常适合部署在个人电脑或小型服务器环境中执行定时任务。无论是开发测试中的界面验证,还是用户行为模拟,Mac Use 都能以低门槛的方式提供可靠的图形化操作支持。