什么是LLM NeverDie
NeverDie 是 OpenClaw 生态中保障 LLM 服务韧性的关键技能,专门用于防范‘静默故障’——即备用链中所有模型同时宕机的极端情况。其核心设计理念强调提供商的异构性,通过强制实施多提供商降级链,确保单一云服务中断不会导致整个系统崩溃。该工具无需依赖任何 LLM 即可独立运行监控进程,从根本上解决了传统监控系统在全部模型失效时无法报警的致命缺陷。NeverDie 将本地 Ollama 模型作为最后一道安全网,因其不受速率限制、认证问题或网络波动影响,可在云端服务全面瘫痪时仍保持可用性。整个架构设计以零外部依赖、无远程安装、仅使用 Node.js 内置模块为原则,最大限度保障安全性与稳定性。
核心功能特点
- 强制执行多提供商降级链,避免同厂商模型连续堆叠导致的单点故障风险
- 部署独立运行的监控守护进程,不依赖任何 LLM 即可持续检测服务状态
- 支持 Telegram 实时告警(可选),同时保留本地日志文件输出机制
- 自动识别配置中的提供商同质化问题,并提示缺少本地 Ollama 兜底模型
- 通过 systemEvent cron 任务实现完全解耦的定时健康检查,即使所有 LLM 不可用也能执行
适用场景
NeverDie 特别适用于对高可用性有严格要求的 LLM 生产环境。当企业使用多个云服务商(如 Anthropic、OpenAI、NVIDIA)构建混合推理链路时,传统容错策略往往忽略提供商层面的共因故障风险。例如,若主备模型均来自同一云平台且遭遇区域性中断,系统将陷入无响应状态。NeverDie 通过智能分析模型链中的提供商分布,主动规避此类风险,并确保至少包含一个本地运行的 Ollama 实例作为终极后备。这种设计尤其适合需要 7×24 小时稳定运行的自动化工作流、长期值守的 AI 代理或关键业务决策场景。此外,其轻量级特性也使其成为个人开发者保护自建 LLM 服务的理想选择——即便预算有限,也能通过低成本本地模型维持基本通信能力。
