Pure Search

基于DuckDuckGo和Trafilatura的轻量级、免API Key网页搜索技能。返回高度相关的URL和整洁的Markdown内容。

安装

概览

什么是Pure Search

Pure Search 是一款基于 DuckDuckGo 和 Trafilatura 的轻量级网页搜索工具,专为开发者与智能体设计,无需配置 API Key 即可快速获取高质量网络内容。它通过调用 DuckDuckGo 搜索引擎检索相关页面链接,再利用 Trafilatura 技术精准提取网页正文内容,自动剔除广告、导航栏、页脚等无关信息,仅保留核心文本并以 Markdown 格式输出。这种设计不仅提升了内容的可读性,也极大优化了语言模型处理时的上下文效率。整个系统以单一 Python 脚本实现,遵循 KISS(Keep It Simple, Stupid)原则,部署门槛极低,适合集成到各类自动化流程或智能代理中。其结构化 JSON 输出格式便于程序解析,同时支持自定义搜索结果数量,灵活应对不同场景需求。

核心功能特点

  1. 无需注册 API Key,开箱即用,零配置启动
  2. 结合 DuckDuckGo 搜索与 Trafilatura 内容清洗,返回高度相关的纯净网页内容
  3. 输出为标准 JSON 格式,包含标题、URL 和 Markdown 正文,便于程序化处理
  4. 自动过滤广告、导航栏等非正文内容,提升 LLM 读取效率并节省上下文空间
  5. 支持自定义结果数量,可通过参数调整检索深度以满足多样化查询需求

适用场景

Pure Search 特别适合需要实时抓取互联网公开信息但受限于商业 API 成本或权限的场景。例如,在构建知识库时,开发者可以快速检索最新技术趋势、开源项目动态或行业报告,并将清洗后的内容直接导入文档系统;对于运行 AI 智能体的应用,该工具能高效提供外部数据源,避免因 HTML 标签干扰导致模型理解偏差。此外,在自动化研究、竞品分析或内容聚合任务中,Pure Search 可显著减少人工筛选时间,确保每次查询都返回结构清晰、语义完整的原始文本。由于其轻量化和免授权特性,它也适用于个人开发者、小型团队或预算有限的项目,在不依赖第三方付费服务的前提下实现可靠的信息采集。