Doc OCR Skills 是一款专为文档文字识别设计的命令行工具,支持对扫描版 PDF 文件与常见图片格式进行高精度 OCR(光学字符识别)。该工具采用模块化架构,集成了三种主流 OCR 引擎:Google Gemini 2.5 Flash、PaddleOCR 和 RapidOCR,用户可根据需求选择本地或云端处理方式。所有组件被编译为单个 Go 二进制文件,便于部署与使用,无需复杂依赖环境。其核心优势在于轻量化设计和高兼容性,既适合快速处理少量文档,也能应对大规模批量任务。通过简单的命令行参数即可切换不同引擎,极大提升了灵活性和实用性。 工具的安装过程极为简便,官方提供预编译的二进制包,用户只需运行一个脚本即可自动识别操作系统与架构并下载对应版本。若需自定义构建,也仅需 Go 1.21+ 环境即可完成源码编译。对于使用 Google Gemini 引擎的用户,需在 `~/.ocr/config` 配置文件中设置 API Key;而 PaddleOCR 和 RapidOCR 作为本地引擎,无需网络连接即可完成全部处理流程。这种混合模式让开发者既能享受云服务的强大算力,又能保证数据隐私与离线可用性。 此外,Doc OCR Skills 提供了丰富的 CLI 选项以满足多样化场景需求。除了基础的单文件识别外,还支持批量处理目录下的多个文件,并允许指定输出路径。Gemini 引擎还支持自定义识别提示词(prompt),进一步提升文本提取的准确率与上下文理解能力。整体而言,这是一款面向开发者、研究人员及自动化流程的理想 OCR 解决方案,兼顾效率、可控性与跨平台特性。
核心功能特点
- 支持三种 OCR 引擎:Gemini 2.5 Flash(云端)、PaddleOCR 和 RapidOCR(本地)
- 单文件与批量处理模式,可递归处理目录下所有支持的文件类型
- 输出结果可保存至指定文件或目录,便于后续集成与归档
- 完全离线运行(使用本地引擎时),保障敏感文档的数据安全
- 预编译 Go 二进制文件,一键安装,无需复杂环境配置
适用场景
Doc OCR Skills 特别适用于需要将纸质文档或截图中的文字快速转化为可编辑文本的场景。例如,在数字化办公转型过程中,企业常面临大量扫描合同、发票或报表的处理需求,传统手动录入效率低下且易出错。使用该工具可在数秒内完成一份 PDF 的 OCR 转换,显著提升工作效率。学术研究者也可借助其批量处理能力,将古籍扫描件、论文手稿等一次性转为结构化文本,方便后续分析与引用。 对于开发者和自动化工程师而言,该工具是 CI/CD 流水线或数据处理脚本中的理想组件。结合 shell 脚本或 Python 调用,可实现“上传文档—自动识别—导出结果”的全流程无人值守操作。尤其在需要定期抓取网页内容、解析 PDF 报告或构建知识库系统的场景中,其命令行接口易于嵌入现有工作流。由于支持本地引擎,即使在内网或低带宽环境中也能稳定运行,避免了依赖外部 API 的不确定性。 此外,教育机构和出版行业同样能从中受益。教师可将学生提交的纸质作业拍照后交由工具识别,快速生成电子版供批改;出版社则可用于将历史文献数字化,保留原始排版的同时提取文字内容用于数据库索引。无论是个人项目还是团队协作,Doc OCR Skills 都以其简洁高效的特性成为现代文档处理不可或缺的一环。
