什么是Crawlee

Crawlee 是一个为 JavaScript/TypeScript 和 Python 设计的高性能、生产级网络爬虫与浏览器自动化库。它专为需要高效抓取网页内容并处理复杂反爬机制的场景而构建，内置了对代理轮换、会话管理、结构化数据存储和并发控制的全面支持。无论是简单的 HTML 解析还是复杂的单页应用（SPA）渲染，Crawlee 都能通过其灵活的爬虫类型选择来应对。其核心设计理念是‘开箱即用’，开发者可以快速上手，同时保留足够的灵活性以满足高级定制需求。Crawlee 的 API 设计简洁直观，将爬虫抽象为两个核心问题：‘要去哪里？’（通过 RequestQueue 管理 URL）和‘在那里做什么？’（通过 requestHandler 函数定义行为），大大降低了学习成本。

核心功能特点

支持多语言：原生支持 JavaScript/TypeScript (Node.js) 和 Python (3.10+)，提供一致的 API 体验。
丰富的爬虫类型：提供 CheerioCrawler（快速HTML解析）、Playwright/PuppeteerCrawler（全功能无头浏览器）以及 AdaptivePlaywrightCrawler（自动判断是否需要JS渲染）等多种选择。
强大的反封锁能力：集成 got-scraping 实现真实浏览器指纹，支持代理配置（包括分层代理）、会话池管理和请求频率控制。
内置存储系统：提供 Dataset（结构化结果集）和 KeyValueStore（键值对存储，用于保存截图、文件等）两种持久化方案。
灵活的链接入队：支持基于 CSS 选择器、正则表达式或 glob 模式筛选链接，并可附加自定义标签以区分不同页面类型。

适用场景

Crawlee 非常适合那些需要从现代网站中大规模、稳定地提取数据的场景。对于大多数仅需解析静态 HTML 的任务，如电商商品信息抓取、新闻文章聚合或公开数据监控，CheerioCrawler 是理想选择，它以极快的速度运行且资源消耗低。当目标网站依赖 JavaScript 动态加载内容（例如 React, Vue 构建的单页应用），则必须使用 PlaywrightCrawler 或 PuppeteerCrawler 进行完整的浏览器模拟，从而确保能获取到最终渲染后的 DOM 结构。Crawlee 的 AdaptivePlaywrightCrawler 更进一步，它能自动分析页面并决定是使用 HTTP 请求还是启动浏览器，为用户提供了最佳的平衡点。此外，其路由系统允许开发者清晰地组织复杂的爬取逻辑，比如分别处理列表页、详情页和分页导航，使得大型项目的代码结构更加清晰易维护。借助内置的会话池和 ProxyConfiguration，Crawlee 能够有效应对各种反爬虫策略，保证长时间运行的爬虫任务不被中断。

概览

什么是Crawlee

核心功能特点

适用场景

相关推荐

Agent Browser

Openclaw Skill Money Idea Generator

股票

Openclaw Skill Gastown

Antigravity Quota

联网搜索一键配置 · Tavily One-Step

Chrome Devtools Mcp

Stock Price Query