抓取 tophub.today 支持网站的热榜列表并生成 JSON 文件,可进一步抓取并保存文章正文内容。

安装

概览

什么是TopHotCN

TopHotCN 是一个专为抓取中文互联网热榜内容而设计的爬虫工具,其核心功能围绕 tophub.today 平台提供的聚合热榜数据展开。该工具通过两个独立脚本协同工作,首先从 tophub.today 获取指定网站的实时热门条目列表,并将其结构化保存为 JSON 文件;随后可进一步调用第二个脚本,利用 Crawl4AI 技术抓取这些条目的原始文章链接并提取正文内容,最终生成包含完整信息的 Markdown 格式文档。整个流程无需用户干预登录或验证码,仅依赖公开接口即可完成自动化采集。 工具采用 Python 编写,依赖 pip 安装 crawl4ai、requests、tqdm 和 pypinyin 等库,并通过 Playwright 初始化 Chromium 浏览器内核以支持动态页面渲染。首次使用时需执行 `python -m playwright install chromium` 完成环境配置。所有抓取行为均遵守频率控制策略——每条请求间隔至少 1 秒,针对微信等特殊站点额外增加 2 秒延迟,有效规避反爬机制。此外,工具严格限定于公开可访问的内容范围,不涉及任何需要身份验证或隐私保护的数据源,确保合规性与安全性。 输出结构清晰分层:第一阶段生成的 JSON 文件按网站拼音命名目录(如 zhi_hu 代表知乎),每个文件以标题命名并以下划线替代非法字符;第二阶段抓取后会在原文件中添加 content 字段存储 Markdown 正文,同时记录 fetched_at 时间戳及可能的 error 信息。若启用输出模式,则会单独保存新文件,保留完整的元数据与内容体。这种设计既便于批量处理也支持单篇调试,极大提升了数据流转效率。

核心功能特点

  1. 自动抓取 tophub.today 支持的中文热榜网站列表
  2. 支持按数量限制获取热榜条目(如前 N 条)
  3. 可自定义保存路径并按网站拼音分类存储 JSON 文件
  4. 利用 Crawl4AI 抓取原始文章并转换为 Markdown 格式
  5. 支持单个文件或批量目录的正文抓取任务
  6. 具备频率控制与反爬规避机制保障稳定运行

适用场景

TopHotCN 特别适合需要持续监控多个中文资讯平台热点趋势的研究人员或内容运营者。例如,产品经理可通过定期抓取知乎、微博、抖音等平台的热榜话题,快速识别用户关注焦点,辅助产品迭代决策;市场分析师则可以利用该工具批量获取科技媒体(如 36氪、虎嗅网)和行业社区(如掘金、CSDN)的热门讨论,分析舆论风向与竞品动态。对于自媒体创作者而言,掌握各平台实时热点有助于选题策划与内容时效性把控,提升账号影响力。 在学术研究场景中,该工具可用于舆情监测、社会事件追踪或网络文化演变分析。研究人员只需设定目标站点和时间周期,即可自动积累大量公开文本数据,为后续自然语言处理、情感分析或主题建模提供高质量语料库。教育机构也可将其用于新闻阅读课程,让学生观察不同媒体对同一事件的报道差异,培养批判性思维与信息甄别能力。 此外,个人用户若希望离线保存感兴趣的文章以便深度阅读,TopHotCN 提供了便捷的本地归档方案。无论是抓取微信公众号长文、B站热门视频介绍还是豆瓣影评,均可一键导出为结构化的 Markdown 文件,配合笔记软件实现知识沉淀。由于支持强制重抓与部分处理功能,用户还能灵活应对数据更新需求,避免重复劳动,显著提升工作效率。