Content Extract

{"answer":"专为 OpenClaw 工作流设计的强健 URL 转 Markdown 提取工具。适用于用户需要“提取/总结/将网页转换为 Markdown”的场景(特别是微信公众号……"}

安装

概览

Content Extract 是一个专为 OpenClaw 工作流设计的强健 URL 转 Markdown 提取工具,旨在将“给定一个网页链接 → 产出可读性强、可追溯来源的 Markdown 内容”这一需求标准化为统一入口。该工具的核心目标是服务于需要从网页中提取、总结或转换内容的各类下游业务技能(如 GitHub 探索、写作辅助、日报生成等),确保所有输出都具备清晰的溯源路径和一致的格式规范。其设计遵循三大核心原则:行为规约层要求永远提供可追溯的原始 URL 与解析产物链接,绝不虚构来源;Token 探针机制优先使用低成本快速抓取方式判断可行性;反弹机制则保证在失败时返回明确的下一步操作建议而非异常堆栈信息。整个处理流程通过决策树实现智能路由,根据域名白名单直接调用 MinerU,否则先尝试轻量级探针抓取,失败后再启用高保真 MinerU 官方 API 进行深度解析。

核心功能特点

  1. 支持智能路由机制,根据域名自动选择最优解析策略
  2. 提供统一的结果合同格式,包含原始 URL、引擎类型、Markdown 内容和溯源路径
  3. 内置探针检测与 MinerU 双链路 fallback 机制,兼顾效率与准确性
  4. 强制要求输出可追溯入口,确保内容来源可验证
  5. 针对微信等反爬站点优化,采用 MinerU-HTML 模型保障解析效果
  6. 失败时返回明确错误原因及下一步行动建议

适用场景

Content Extract 特别适合那些需要将任意网页链接快速转换为结构化 Markdown 内容的场景,尤其是在微信公众号文章批量处理、技术博客归档、新闻资讯摘要生成等高频任务中表现突出。由于它严格遵循可追溯性原则,非常适合知识管理类应用,例如构建个人阅读笔记库或团队协作的知识图谱系统。当遇到反爬虫严格的动态页面(如知乎专栏、微博长文)时,该工具能自动切换至 MinerU 高保真解析模式,有效应对复杂 DOM 结构和动态加载内容。对于需要自动化内容采集与处理的 AI Agent 工作流而言,Content Extract 提供了稳定可靠的中间件能力——无论是作为写作助手的素材输入源,还是作为数据分析前的文本预处理环节,都能显著提升整体流程的鲁棒性和可维护性。