MinerU Document Extractor

MinerU 文档提取命令行工具,通过 MinerU API 将 PDF、图片和网页转换为 Markdown、HTML、LaTeX 或 DOCX。支持无 Token 闪速提取。

安装

概览

MinerU 文档提取命令行工具(mineru-open-api)是一款专为开发者设计的开源文档处理工具,通过调用 MinerU API 实现 PDF、图片、网页等格式的自动化内容提取与格式转换。该工具支持将原始文档快速转换为 Markdown、HTML、LaTeX、DOCX 或 JSON 等多种结构化输出格式,适用于知识管理、内容归档、学术论文解析等多个场景。其核心优势在于提供两种不同的提取模式:无需认证的闪速提取(flash-extract)和需要 API Token 的高精度提取(extract),用户可根据文件大小、复杂度及功能需求灵活选择。闪速模式适合轻量级文档的快速处理,而高精度模式则支持表格识别、公式解析、OCR 文字识别以及批量处理等高级功能,尤其适用于大型文档或生产环境中的复杂任务。

核心功能特点

  1. 支持 PDF、图片、Word、PPT、HTML 及网页 URL 等多种输入格式
  2. 提供 flash-extract(免认证快速提取)和 extract(高精度提取)两种工作模式
  3. 支持 Markdown、HTML、LaTeX、DOCX、JSON 等多格式输出
  4. 高精度模式下具备表格识别、数学公式识别与 OCR 扫描件处理能力
  5. 支持批量文件处理、并发抓取与自定义超时设置
  6. 内置智能语言检测,支持中、英、日、韩等 20+ 种语言的文档解析

适用场景

MinerU 文档提取工具特别适合需要高效处理大量异构文档的开发者与研究人员。对于初次使用或仅需简单文本提取的用户,`flash-extract` 模式可在不注册账号的情况下快速完成小文件(≤10MB,≤20页)的 Markdown 转换,非常适合临时性任务或测试用途。例如,科研人员在阅读 arXiv 论文时可直接通过 URL 提取内容并保存为本地 Markdown 文件,便于后续笔记整理或代码分析。而当面对包含复杂排版、数据表格或公式的学术报告、技术手册或财务报表时,必须切换至 `extract` 模式并配置 API Token,以启用表格识别、公式渲染和 OCR 功能,确保信息完整无损地还原为结构化数据。此外,该工具还支持从 stdin 读取文件或按列表批量处理多个文档,非常适合集成到 CI/CD 流程中自动处理文档库,或用于构建企业内部的知识图谱系统。对于爬虫开发者而言,`crawl` 命令可一键抓取网页内容并转为 Markdown,极大简化了网页存档与信息抽取的工作流。