Firecrawl

集成托管认证的 Firecrawl API。可抓取、爬取、映射及搜索网页内容。当用户需要从网页提取内容时,请使用此技能。

安装

概览

Firecrawl 是一个集成托管认证的 API 服务,旨在简化网页内容抓取、爬取和搜索流程。通过统一的网关接口,开发者可以高效地访问 Firecrawl 的核心功能,包括单页面提取、全站爬取、站点结构映射以及基于语义的网页搜索。该服务自动处理身份验证与连接管理,用户只需设置环境变量 `MATON_API_KEY` 即可开始使用。所有请求通过 `https://gateway.maton.ai/firecrawl/{endpoint}` 路由,系统会自动注入 API 密钥并代理至底层 Firecrawl 基础设施。无论是需要快速获取单个页面的 Markdown 内容,还是大规模采集整个网站的数据,Firecrawl 都提供了稳定且可扩展的解决方案,特别适合数据密集型应用场景。

核心功能特点

  1. 支持单页面内容抓取,可输出 Markdown、HTML、JSON、截图等多种格式
  2. 提供全站爬取功能,自动遍历链接并返回结构化结果,支持深度控制与路径过滤
  3. 具备站点地图生成能力,无需下载内容即可快速发现目标 URL 集合
  4. 集成智能搜索接口,结合语义查询与全文提取,提升信息检索效率
  5. 支持批量操作与异步任务管理,包括批处理抓取、AI 数据抽取及自动化代理
  6. 内置浏览器会话控制,允许通过 CDP 协议进行交互式页面操作与监控

适用场景

Firecrawl 适用于多种需要从互联网提取或分析内容的开发场景。在内容聚合平台中,它可用于实时抓取新闻、博客或产品页面的结构化文本,用于构建知识库或推荐系统;对于 SEO 工具开发者,可通过站点映射和批量爬取全面分析竞争对手网站架构与内容分布。此外,在数据分析与商业情报领域,Firecrawl 能高效采集电商商品详情、论坛讨论或研究报告,配合 AI 抽取功能直接提取关键指标如价格、规格参数或观点摘要。其浏览器动作支持也使其成为自动化测试与动态页面交互的理想选择,例如模拟用户点击加载更多内容后再进行截图存档。无论是构建爬虫管道、训练大语言模型的数据集,还是实现智能问答系统,Firecrawl 都能提供可靠的内容获取层支撑。