Claude Watchdog 🐕

监控API服务的故障和延迟波动,通过Telegram发送详细告警。包括状态监控、延迟探测和自动恢复通知。

安装

概览

Claude Watchdog 🐕 是一款专为监控 Anthropic Claude API 服务健康状态而设计的轻量级工具。它能够主动检测 API 的可用性、响应延迟以及官方状态页面中的故障事件,并通过 Telegram 发送结构化的告警信息,帮助开发者实时掌握服务状况。该工具完全免费使用,且不消耗任何 Claude 模型调用额度,特别适合需要稳定访问 Claude API 的团队或个人用户。其核心优势在于零成本监控与即时通知机制,让用户无需额外投入即可保障服务的可靠性。 该工具由两个主要模块组成:状态检查器(status-check.py)和延迟探测器(latency-probe.py)。前者每15分钟轮询 Anthropic 的状态页面(status.claude.com),解析当前服务中断或降级事件,并根据用户使用的模型类型智能过滤无关告警;后者则通过本地 OpenClaw 网关向 Claude API 发起最小化请求,测量真实端到端延迟,并建立动态基线以识别异常波动。所有告警均附带详细上下文,包括当前延迟、历史基线、严重程度标识等,便于快速判断问题影响范围。 配置过程简洁高效,仅需运行一次交互式安装脚本即可完成环境初始化。用户需提供 Telegram 机器人令牌、聊天 ID 以及本地 OpenClaw 网关的身份验证令牌,脚本将自动设置定时任务(cron job)并启动首次检测。配置文件采用 .env 格式存储于用户目录下,权限严格限制为仅所有者可读写,确保敏感信息安全。此外,工具支持灵活调整告警阈值、采样窗口大小等参数,满足不同网络环境下的监控需求。

核心功能特点

  1. 每15分钟自动轮询 Anthropic 官方状态页面,及时捕获服务中断或性能降级事件
  2. 通过本地 OpenClaw 网关执行低开销延迟探测,精确测量端到端响应时间
  3. 基于滚动基线算法动态评估延迟异常,按严重程度分级推送 Telegram 告警
  4. 智能过滤非相关模型故障(如仅影响 Haiku 但用户使用 Sonnet 时不告警)
  5. 恢复通知功能:当服务恢复正常后自动发送‘all-clear’消息
  6. 零 Claude 令牌消耗,每次探测成本约 $0.000001,适合长期运行

适用场景

Claude Watchdog 特别适用于依赖 Claude API 构建生产系统的开发者和运维团队。例如,在部署基于 Claude 的智能客服、内容生成或代码辅助工具时,即使短暂的服务不可用也可能导致用户体验严重下降。通过持续监控 API 状态和延迟变化,该工具可在问题发生前或刚出现时立即提醒,避免因突发中断造成业务损失。对于使用 Claude 3.5 Sonnet 等大模型的应用场景,它能有效区分平台级故障与自身环境问题,减少误报干扰。 另一个典型应用场景是远程办公或多地协作团队。由于 Claude API 由 Anthropic 集中托管,其稳定性受地理位置和网络环境影响较大。当团队分布在不同区域时,本地延迟波动可能频繁发生。Claude Watchdog 提供的精细化延迟告警(如黄色/橙色/红色三级提示)有助于定位性能瓶颈,并配合 OpenClaw 网关实现就近路由优化。同时,结合自定义关键词过滤功能,可屏蔽与项目无关的系统更新通知,聚焦关键告警信息。 此外,该工具也适合预算有限但追求高可用性的个人开发者。相比商业 APM 服务高昂的费用,Claude Watchdog 利用现有基础设施(Python 标准库 + 本地网关)实现专业级监控,几乎无额外开销。无论是初创公司 MVP 阶段的原型验证,还是开源项目的社区维护者,都能借此工具建立基础 SLA 保障机制,提升用户对服务的信任度。