pyautogui

跨平台鼠标键盘自动化技能。支持鼠标控制(移动/点击/拖拽/滚动)、键盘控制(按键/热键/输入文本)及屏幕操作。

安装

概览

什么是pyautogui

PyAutoGUI 是一个强大的跨平台自动化工具,专为 Python 开发者设计,用于模拟鼠标和键盘操作,实现图形用户界面(GUI)的自动化控制。它支持在 Windows、Linux 和 macOS 三大主流操作系统上运行,为不同平台的脚本编写提供了统一的接口。该工具的核心能力包括精确控制鼠标移动、点击、拖拽与滚动,以及模拟键盘按键、组合热键和文本输入等操作。同时,PyAutoGUI 还集成了屏幕捕获功能,能够获取屏幕截图或指定区域的图像,并提供了丰富的图像处理辅助功能。其应用场景广泛,从简单的重复性任务自动化到复杂的 GUI 测试流程均可胜任。通过调用 PyAutoGUI,用户可以高效地完成诸如自动填写表单、批量点击按钮、执行系统级快捷操作等一系列任务,极大提升了工作效率。

核心功能特点

  1. 跨平台支持:可在 Windows、macOS 和 Linux 上无缝运行,确保自动化脚本的通用性。
  2. 全面的鼠标控制:支持移动鼠标至指定坐标、单击/双击、拖拽操作及滚轮滚动,满足各种交互需求。
  3. 灵活的键盘操作:可模拟单个按键、组合快捷键(如 Ctrl+C)以及连续文本输入,实现精准输入控制。
  4. 屏幕与图像功能:具备全屏或区域截图能力,并能对图像进行裁剪、获取元数据(尺寸、格式、文件大小)等处理。
  5. 可视化辅助工具:提供屏幕叠加标记(如十字准星、箭头、矩形框)功能,便于实时校准坐标和调试脚本。
  6. 图像定位技术:结合 OpenCV 模板匹配和 RapidOCR 文字识别,实现基于图片或文本内容的元素查找。

适用场景

PyAutoGUI 特别适合需要频繁执行重复性 GUI 操作的场景。例如,在日常办公中,用户可以通过编写脚本自动打开计算器、登录系统或批量处理文件,从而节省大量手动操作时间。对于软件开发者而言,它是进行 GUI 自动化测试的理想选择,比如验证某个按钮是否可被正确点击,或者检查界面布局是否符合预期。此外,在处理大量数据录入时,PyAutoGUI 可以自动填充表格、复制粘贴长文本内容,避免人工输入带来的错误和疲劳。在教育领域,它也可用于演示软件操作流程或创建交互式学习材料。由于其支持 OCR 文字识别,即使在没有固定图标的情况下,也能通过识别屏幕上出现的特定文字来定位目标控件,这使得它在动态界面或第三方应用程序中同样具有强大适用性。无论是简单的点击任务还是复杂的端到端工作流,PyAutoGUI 都能提供可靠且高效的解决方案。