ClawPhone Phone Control

使用手机控制 MCP 完成手机界面感知与操作。适用于读取当前手机状态、打开 App、处理弹窗、点击控件、输入文本、排查手机自动化失败等场景。执行时优先读取界面状态,涉及坐标点击时必须基于当前截图临时判定,禁止把历史坐标当成通用规则。

安装

概览

什么是ClawPhone Phone Control

ClawPhone Phone Control 是一款专为移动设备自动化设计的控制工具,其核心功能是通过手机界面感知与操作,实现对 MCP(Mobile Control Protocol)的深度控制。该工具强调‘先感知,再操作’的基本原则,在执行任何自动化流程前,必须优先读取当前屏幕状态,包括前台应用、分辨率及可见文字信息。这种设计确保了操作的精准性和可靠性,尤其适用于复杂或易变的移动应用场景。

与传统自动化工具不同,ClawPhone 不依赖固定的坐标点击或预设路径,而是基于实时截图动态判定控件位置。这意味着即使页面布局微调或键盘弹出导致界面变化,系统也能自动适应并重新定位目标元素。同时,工具提供了多层次的兜底机制,例如在文本输入失败时切换至剪贴板粘贴方式,极大提升了流程的鲁棒性。

此外,ClawPhone 特别关注‘脆弱流程’的处理逻辑,如微信聊天发送等场景,要求每一步操作后都必须进行界面复核,避免因网络延迟或界面卡顿造成误判。这种严谨的操作原则使得 ClawPhone 不仅适用于常规的手机自动化任务,更能应对高交互性、高不确定性的真实使用环境。

核心功能特点

  1. 基于实时截图的动态坐标判定,确保点击操作精准有效
  2. 优先使用文字/节点识别能力,减少对固定坐标的依赖
  3. 提供多步骤验证机制,支持一步一验的脆弱流程处理
  4. 内置剪贴板兜底方案,解决文本输入失败时的替代路径
  5. 强调操作前后界面状态复核,避免仅凭工具返回值判断成功

适用场景

ClawPhone Phone Control 最典型的应用场景是手机自动化测试与调试,尤其是在排查自动化脚本执行失败时表现出色。例如,当某次自动化流程因弹窗未及时关闭而中断,开发者可通过 ClawPhone 快速获取当前屏幕快照,识别出遮挡界面的异常元素,并手动触发关闭操作,从而定位问题根源。这种即时干预能力显著缩短了故障排查周期。

另一个高频使用场景是跨平台 App 的快速启动与状态确认。比如在集成测试中,需要确保某个社交 App 在启动后真正切换到了目标页面而非停留在桌面。ClawPhone 通过连续调用 `get_screen_info` 和 `capture_screen`,可在毫秒级内验证前台应用是否正确加载,避免因启动延迟导致的后续操作错误。

对于依赖用户输入的复杂交互流程,如表单填写或消息发送,ClawPhone 同样具备强大适应性。它会在输入前确认焦点状态,失败后自动启用剪贴板粘贴作为备用方案,并在发送完成后再次校验界面变化。这种闭环验证机制特别适合微信等自定义控件较多、无障碍支持较弱的 App,有效解决了传统自动化工具在此类场景中常见的‘假成功’问题。