什么是Amazon Scraper

Amazon Scraper 是一款高性能的容器化网页爬虫工具，基于 Docker、Crawlee 和 Playwright 构建，专为高效穿透反爬机制而设计。该工具支持自动识别目标网站类型并选择对应抓取模式，用户只需提供 URL 或明确需求，即可快速获取结构化数据。其核心优势在于无需复杂配置，通过命令行调用即可完成从亚马逊商品榜单到 YouTube 视频字幕的全流程数据采集。

工具内置三种智能处理模式：针对亚马逊站点的专用爬虫（amazon_handler.js），可精准解析畅销榜、搜索结果及商品详情页；针对 YouTube 的视频内容抓取器（main_handler.js），能自动拦截字幕 API 并提取转录文本；以及适用于任意网站的通用爬虫模式，可提取页面纯文本内容并过滤广告干扰。所有输出均为标准 JSON 格式，便于后续分析与集成。

由于采用 Docker 容器化部署，每次请求都会清除 Cookie 并模拟全新浏览器环境，有效规避账号封禁与行为检测。同时结合 Playwright 的真实浏览器模拟能力，支持自动滚动加载懒载内容，提升数据完整性。尽管存在单页数据量限制（约30-50条）和冷启动延迟（约10秒），但对于电商选品、竞品调研、市场趋势分析等高频场景仍具备显著效率优势。

核心功能特点

自动识别 Amazon、YouTube 及其他网站类型并切换抓取策略
支持亚马逊畅销榜、新品榜、飙升榜、搜索页、商品详情页等多类页面结构解析
可获取排名、ASIN、价格、评分、评论数、月销量（boughtPastMonth）、BSR 类目等关键字段
YouTube 模式自动捕获字幕 API 并提取带时间戳的转录文本
通用模式提取网页正文文本，自动去除广告与无关元素
Docker 沙箱隔离运行，每次请求清除 Cookie，有效对抗反爬机制

适用场景

Amazon Scraper 最适用于电商从业者、数据分析师和市场研究人员进行跨平台数据采集与商业洞察。例如，运营团队可通过爬取特定品类（如 electronics）的 Best Sellers 榜单，快速识别热销产品及其排名变化，辅助制定选品策略；而竞品分析场景中，用户可先搜索关键词（如 feather+duster）获取月销量数据，再结合畅销榜信息判断市场容量与竞争强度。对于单个 ASIN 的深度调研，工具能一次性拉取品牌、卖点、上架时间、分类路径等完整信息，极大简化产品画像构建流程。

在市场调研与机会发现方面，该工具支持多维度交叉验证：先用 /zgbs/ 获取品类整体热度排行，再用 /s?k= 搜索补充月销数据，最终形成“排名+销量”双指标评估模型。此外，新品榜（new-releases）和飙升榜（movers-and-shakers）特别适合捕捉短期爆款趋势，帮助创业者把握流量红利窗口期。若用户仅提供模糊需求（如“看看XX卖得怎么样”），系统还能根据语义自动构造对应 URL，实现零配置智能响应。

对于非电商场景，工具同样表现出色。YouTube 模式可一键提取视频字幕与描述内容，适用于教育内容归档、舆情监控或语音转文字服务开发；通用爬虫则适合抓取新闻摘要、社交媒体动态或论坛讨论，输出上限1万字符确保关键信息不丢失。尽管不支持登录态操作且单页结果有限，但在公开数据抓取领域已覆盖绝大多数高频使用场景，是轻量级数据采集的理想选择。

概览

什么是Amazon Scraper

核心功能特点

适用场景

相关推荐

Capability Evolver

Proactive Agent

Markdown.new Skill

Openai Whisper Api

self-improving-agent

Self-Improving + Proactive Agent

Agent Memory

Memory Setup