WeChat Work Doc Fetcher

获取并转换企业微信开发者文档为简洁的 Markdown 文件以用于 Obsidian,处理 SPA 内容及身份验证。

安装

概览

企业微信开发者文档获取工具(WeChat Work Doc Fetcher)是一款专为 Obsidian 用户设计的 Python 脚本,用于将企业微信官方开发者文档页面自动抓取并转换为格式清晰的 Markdown 文件。该工具解决了企业微信文档站点采用 Vue.js 单页应用(SPA)架构导致传统网页抓取方法失效的问题——由于内容在浏览器加载后动态生成,常规爬虫只能获取空壳 HTML,无法提取实际文档内容。通过集成 Playwright 自动化浏览器技术,该工具能模拟真实用户访问行为,自动识别目标文档的唯一标识符(doc_id),并调用企业微信私有 API 直接获取原始 Markdown 内容。转换后的文件经过智能清洗处理,修复了诸如标题格式错误、内部链接冗余、表格渲染异常等常见问题,确保与 Obsidian 完美兼容。整个过程无需手动复制粘贴或复杂配置,只需提供文档 URL 即可一键生成可直接导入知识库的干净文本。

核心功能特点

  1. 自动识别企业微信文档 ID,支持从 URL 路径中提取路由 slug 并通过浏览器自动化获取真实 doc_id
  2. 利用 Playwright 驱动无头 Chromium 浏览器,完整渲染 SPA 页面并拦截关键 API 请求以获取原始 Markdown 内容
  3. 内置智能清洗逻辑,修复标题空格缺失、HTML 标签残留、表格断行、高亮标记等格式问题
  4. 支持命令行参数灵活控制输出路径、指定手动 doc_id、覆盖会话 Cookie 等高级选项
  5. 生成的 Markdown 文件严格适配 Obsidian 渲染规则,尤其优化表格前空白行以确保正确显示

适用场景

该工具最适合需要在本地知识库中系统化整理企业微信开发资料的技术人员使用。例如,当开发者频繁查阅《消息推送接口说明》《事件回调机制详解》等官方文档时,可快速将其转为结构化笔记,便于后续检索、关联和二次编辑。对于构建私有技术手册的团队而言,批量抓取多个 API 文档并统一格式入库,能显著提升内部文档管理效率。此外,Obsidian 用户若希望将企业微信官方指南作为插件化知识源嵌入个人工作流,此工具提供了零干扰的自动化入口——无需切换浏览器、无需手动复制代码示例或参数表,避免因格式错乱导致的理解偏差。尤其在需要离线查阅或跨设备同步开发规范时,由该脚本生成的标准化 Markdown 文件比截图或 PDF 更具可读性和可维护性。即使遇到网络限制或身份验证失败的情况,用户也可通过导出浏览器 Cookie 的方式临时解决,体现了良好的容错能力与实用性。