将PDF文档(发票、报告)精确转换为高保真OFD格式。

安装

概览

pdf2ofd 是一款专为中文文档格式转换设计的专业工具,其核心使命是将 PDF 文档(尤其是电子发票、报告等正式文件)高精度地转换为符合中国国家标准 GB/T 33190-2016 的 OFD(Open Fixed-layout Document)格式。相较于通用转换器,该工具在渲染精度和细节还原方面表现突出,特别针对电子发票类文档进行了深度优化,能够确保输出结果在视觉上与原始 PDF 完全一致,满足政务、金融等行业对版式文件严格保真的要求。 该工具的技术实现依赖于对底层库的深度定制与增强,通过 PyMuPDF(fitz)提取 PDF 中的原始字符位置信息(如 DeltaX 数组和基线原点数据),并结合 Pillow 处理图像透明度,从而实现了文本布局的像素级还原。同时,它支持复杂矢量图形的颜色、描边宽度、填充模式及 Alpha 通道的完整保留,对于电子签章、水印等含透明效果的元素也能精准再现。此外,工具内置跨平台字体映射机制,自动将 macOS 和 Windows 系统下的宋体、楷体、黑体等字体名称统一转换为 OFD 标准命名,避免因字体缺失导致的显示错乱问题。

核心功能特点

  1. 高保真文本定位:基于字符级坐标数据精确还原 PDF 原文排版,确保文字位置、间距与源文件完全一致
  2. 完整矢量图形支持:直接提取并保留原始路径颜色、填充色、线宽及复杂填充指令,支持透明效果(Alpha/FillOpacity)
  3. 智能字体跨平台兼容:自动映射 macOS 与 Windows 特有字体名称至 OFD 标准字体名,保障多平台正确显示
  4. 透明通道无损处理:全面支持图像 SMask 透明蒙版和矢量路径透明度,准确呈现电子印章、签名等关键元素
  5. 内存内打包生成:全程在内存中构建 OFD ZIP 结构,无需中间临时文件,提升安全性并减少磁盘占用
  6. 财务文档色彩校正:内置“发票红”(128 0 0)智能识别与修正机制,兼顾合规性与非标准颜色的保留

适用场景

pdf2ofd 最典型的应用场景是电子发票的标准化归档与交换。在中国税务系统中,OFD 已成为官方推荐的电子发票存储格式,要求发票内容必须保持固定版式且不可篡改。使用 pdf2ofd 可将企业开具的 PDF 发票一键转换为符合国标的 OFD 文件,不仅满足税务部门对文件格式的硬性规定,还能确保在各地税务平台或企业财务系统中稳定展示,避免因字体缺失或排版错乱引发的报销或审计问题。 除了发票处理,该工具同样适用于各类需要长期保存且强调版式稳定的正式文档,如政府公文、科研报告、合同协议、财务报表等。这些文档通常包含大量表格、图表、批注和签名,对格式完整性有极高要求。通过 pdf2ofd 转换后,即使在不同操作系统或阅读软件上打开,也能保证内容布局、字体样式和图像质量的一致性,极大提升了文档的专业性和可信度。此外,由于其支持内存内处理和零拷贝资源管理,也适合集成到自动化办公流水线中,实现批量、安全、高效的文档格式迁移。