Links to PDFs

从 Notion、DocSend、PDF 等来源抓取文档并保存为本地 PDF 文件。用于下载、归档或转换网页文档。支持受保护文档的身份验证及通过配置文件保持会话,返回下载文件的本地路径。

安装

概览

docs-scraper 是一款专为开发者设计的命令行工具,通过浏览器自动化技术从多种在线文档源抓取内容并保存为本地 PDF 文件。该工具支持 Notion、DocSend 等主流文档平台,并能自动处理受保护页面的身份验证流程。用户只需提供目标 URL,即可快速获取标准化格式的离线文档,非常适合需要批量归档或转换网页内容的场景。核心优势在于其智能识别不同网站结构的能力,结合持久化会话管理和自动化表单填充功能,显著提升了文档采集效率。

核心功能特点

  1. 支持 Notion、DocSend 及通用网页的 PDF 抓取
  2. 自动处理登录验证与表单提交流程
  3. 内置浏览器守护进程提升重复操作速度
  4. 动态字段识别技术适配未知页面结构
  5. 本地存储管理配合自动清理机制

适用场景

该工具特别适合需要定期收集第三方文档的团队或个人用户。例如市场研究人员可批量下载竞品发布的白皮书(DocSend 链接),产品经理能自动归档客户提供的需求文档(Notion 页面),而内容创作者则可将付费墙后的行业报告转换为本地 PDF 进行离线阅读。对于依赖外部文档协作的企业而言,docs-scraper 提供了比手动下载更高效可靠的替代方案。其 CLI 设计也便于集成到自动化工作流中,实现定时抓取或批量处理任务。