Knowledge Base Collector

收集并整理来自网页、X、微信和截图的个人知识库;在用户想保存网址、导入链接、归档内容、标记/分类笔记、存储截图或在 Telegram 中搜索已保存知识时使用。支持的微信通过已连接的 macOS 节点实现(云端获取受阻时)。

安装

概览

Knowledge Base Collector 是一款专为个人知识管理设计的自动化工具,旨在帮助用户高效收集、存储和整理来自网页、社交媒体(包括 X/Twitter)、微信公众号以及截图等多渠道的信息。该工具通过统一的接口将各类内容沉淀至共享知识库中,并采用结构化方式保存每条内容的原始文本与元数据,确保信息不丢失且易于后续检索。其核心理念是‘先入库不丢’,优先保证内容的完整归档,再通过标签化、摘要生成等方式逐步提升知识组织的质量。 该工具支持多种输入源的处理逻辑:对于普通网页链接,它利用 jina.ai 等无登录服务自动提取正文内容;针对微信公众号文章,由于平台风控机制可能导致云端抓取失败,系统会智能判断是否启用本地 macOS 节点进行抓取,若无法获取则创建占位条目并标记待处理状态,从而最大化内容覆盖率。此外,用户还可通过命令行脚本直接导入图片或 OCR 识别后的文本,实现图文混合的知识积累。所有入库内容均以标准格式存储于指定目录结构下,包含独立的 Markdown 文件和 JSON 格式的元数据文件,同时维护一个全局的索引文件以支持快速查询。 Knowledge Base Collector 不仅是一个简单的收藏夹,更是一个可扩展的知识中枢。它特别适用于需要在 Telegram 等即时通讯环境中频繁引用过往资料的用户,例如开发者查阅技术文档、产品经理追踪行业动态或研究人员整理文献笔记。通过结合搜索脚本与灵活的标签体系(如 #agent、#coding-agent、#claude-code、#mcp 等),用户可以轻松构建个性化的知识图谱,并在需要时快速定位相关内容。整个流程无需复杂配置,只需运行预设脚本即可完成从采集到归类的闭环操作。

核心功能特点

  1. 支持网页、X/Twitter、微信公众号链接及截图的统一入库
  2. 自动抽取网页正文内容,避免手动复制粘贴
  3. 智能处理公众号抓取限制,提供云端与本地双路径保障
  4. 结构化存储每条内容,含独立 Markdown 文件和元数据 JSON
  5. 基于标签的分类体系,便于细粒度管理与检索
  6. 内置搜索功能,支持关键词、标签、来源和时间范围多维查询

适用场景

Knowledge Base Collector 特别适合那些需要长期积累并反复查阅信息的用户群体。例如,AI 开发者经常浏览 GitHub 讨论、技术博客和论文摘要,使用本工具可将这些分散的资源自动归档,并按项目或主题打上标签,日后查找相关概念或代码片段时就能迅速定位。又如产品经理每天阅读大量行业报告和竞品分析,通过批量导入链接并附加备注说明,可以形成一套完整的市场洞察档案,在撰写周报或策划方案时直接调用历史资料。 另一个典型应用场景是在团队协作中作为知识共享的基础设施。虽然当前版本聚焦于个人使用,但其标准化的存储格式和索引机制天然适配多人协作环境——只要共享 KB 根目录,不同成员即可同步访问最新收录的内容。比如法务人员保存合同模板解析文章,设计师归档 UI 设计规范截图,后端工程师记录 API 变更日志,所有信息都集中在一个地方,避免重复劳动和信息孤岛问题。 对于习惯使用 Telegram 作为主要工作流的远程工作者而言,该工具的价值尤为突出。他们可以在聊天中直接询问‘之前提到的那个关于 prompt injection 的文章是什么?’,系统会在后台扫描知识库返回匹配结果,极大提升了沟通效率。此外,结合 weekly_digest.py 脚本还能自动生成近期热点汇总报告,帮助用户在碎片时间把握趋势变化,真正实现‘用机器辅助人脑’的知识管理范式。