PDF OCR Tool 是一款基于 Ollama GLM-OCR 模型开发的智能文档转换工具,专为将 PDF 文件及图片内容高效转换为结构化 Markdown 格式而设计。该工具通过先进的 OCR(光学字符识别)技术,能够自动识别页面中的文本、表格和图像等不同类型的内容,并根据其特性应用最合适的处理策略,确保输出结果既准确又符合 Markdown 规范。无论是学术论文、商业报告还是数据丰富的图表文档,该工具都能实现高质量的结构化提取。 工具的核心优势在于其灵活的处理模式与高度可定制的配置选项。用户可以选择自动检测内容类型、单独处理文本或表格、识别图表图像,甚至启用混合模式对复杂页面进行分区域处理。此外,支持自定义提示词(prompt),允许开发者根据具体需求调整 OCR 行为,从而进一步提升识别精度。所有处理过程均基于本地运行的 Ollama 服务完成,保障了数据隐私与处理效率。同时,工具采用 uv 包管理器构建环境,简化了依赖安装流程,并支持在 OpenClaw 平台中无缝集成调用。
核心功能特点
- 智能内容类型检测:自动识别页面中的文本、表格或图像,无需手动指定即可精准处理
- 多模式 OCR 处理:支持 auto(自动)、text(纯文本)、table(表格)、figure(图表)和 mixed(混合)五种处理模式
- 分区域混合处理:可将单页拆分为多个垂直区域独立分析,适用于包含多种内容的复杂文档
- 支持 PDF 与图片输入:既能处理扫描版或排版复杂的 PDF 文件,也支持对 PNG/JPG 等图像文件直接进行 OCR
- 可定制提示词模板:内置多种场景专用 prompt(如学术文本、数据表格、统计图表),也可自定义优化识别效果
- 灵活的 Ollama 配置:允许设置主机地址、端口号及模型名称,适配不同部署环境
适用场景
PDF OCR Tool 特别适用于需要将纸质或扫描版数字文档快速转化为可编辑、可索引的轻量级文本格式的场合。例如,在处理大量科研论文、政府公告或企业年报时,传统的手动复制粘贴不仅耗时且易出错。使用该工具可在几秒内完成整本 PDF 的 OCR 转换,并保留段落结构、数学公式、引用关系等关键信息,极大提升知识整理与信息挖掘的效率。 对于涉及数据分析的场景,该工具同样表现出色。当面对包含密集数据表格的财务报告、实验记录或市场调研材料时,选择 table 或 mixed 模式能确保表格结构完整保留为标准的 Markdown 表格语法,便于后续导入数据库、电子表格软件或自动化分析流程。若文档中含有流程图、柱状图或饼图等可视化元素,则 figure 模式会生成详细的文字描述并保存对应图片,方便在 Markdown 文档中还原原始信息。 此外,该工具非常适合集成到自动化工作流中。无论是作为 OpenClaw 技能库的一部分被其他智能体调用,还是在 CI/CD 流程中批量处理合同文档、用户手册等资料,其命令行接口和可编程 API 都提供了极大的便利性。结合自定义 prompt 功能,还可针对特定行业术语或特殊排版风格进行调优,满足专业用户的深度定制需求。
