Lerwee Alert To Fault Handling

告警自动处理工作流 - 监听告警上下文,匹配处理脚本,提示用户执行故障处理操作

安装

概览

什么是Lerwee Alert To Fault Handling

Lerwee Alert To Fault Handling 是一款专为运维场景设计的告警自动处理工作流工具,旨在通过智能化的上下文识别与脚本匹配机制,显著提升故障响应效率。该工具的核心逻辑是监听飞书群组中的告警信息,当检测到符合预设条件的告警内容时,系统会自动分析告警的上下文环境,包括告警对象、IP地址、事件ID以及告警分类,进而匹配合适的故障处理脚本。整个过程无需人工介入配置,仅需用户确认即可一键执行预置脚本,实现从告警接收到故障恢复的快速闭环。其设计充分考虑了企业级运维的安全性与可控性,所有操作均需用户明确授权,并完整记录执行日志,确保每一步操作都可追溯、可审计。 该工具的工作流程高度自动化且结构清晰:首先检测对话中是否存在告警信息(如 eventid、IP 或告警名称),然后识别当前所在的飞书群组是否与告警分类匹配,接着通过关键词匹配算法在预配置的脚本库中筛选出最合适的处理方案,最终向用户推送推荐操作并等待确认。一旦用户回复“执行”或“确认”,系统将调用 fault-handling skill 执行对应的脚本,并在完成后反馈详细的执行报告,包括每台主机的状态、输出结果和执行耗时。此外,若脚本执行成功,还可选择自动关闭原始告警,进一步简化后续处理流程。整个系统依赖两个核心配置文件——`.scripts_map.json`用于定义脚本映射关系和触发条件,`.execution_log.json`则记录每一次执行的完整历史,便于复盘与问题追踪。 Lerwee Alert To Fault Handling 特别适用于需要快速响应大量重复性故障的运维团队。例如,当 Nginx 服务意外停止或磁盘空间爆满时,传统方式往往依赖人工判断问题类型并手动登录服务器执行命令,耗时且易出错。而借助此工具,运维人员只需在飞书群内看到告警消息后简单回复“执行”,即可触发标准化处理流程,极大缩短MTTR(平均修复时间)。它不仅支持常见中间件和服务的管理,还可通过扩展配置轻松集成新的脚本类型,具备良好的灵活性和可扩展性。同时,其内置的多重安全机制——包括强制确认、白名单校验、日志审计和失败回显——有效防止误操作,保障生产环境的稳定性与安全性。

核心功能特点

  1. 基于告警上下文智能匹配对应故障处理脚本,实现自动化推荐
  2. 支持用户一键确认执行预置脚本,大幅缩短故障响应时间
  3. 提供完整的执行日志记录与结果反馈机制,确保操作可追溯
  4. 具备多重安全控制机制,包括强制确认、白名单校验和失败回显
  5. 支持自动关闭已处理成功的告警,简化后续管理流程
  6. 可通过配置文件灵活扩展新脚本类型,适配多样化运维场景

适用场景

Lerwee Alert To Fault Handling 最典型的应用场景是日常运维中的高频告警处理。例如,当监控系统发现某台服务器的 Nginx 服务无响应或 80 端口无法访问时,相关告警会被推送到指定的飞书群组。此时,该工具会自动识别告警内容中包含的关键信息(如 IP 地址、eventid 或服务名),并结合当前群组类别(如中间件告警群)匹配到‘nginx服务重启’脚本,主动提示用户执行。运维工程师只需在群内回复“执行”即可完成远程服务重启,全程无需登录跳板机或编写命令,特别适合值班期间快速处置突发状况。 另一个典型场景是磁盘空间告警的处理。当主机因日志文件膨胀导致磁盘使用率超过阈值时,系统会生成告警消息并同步至操作系统告警群。Lerwee 工具识别出关键词如“磁盘”“空间”“/var”等后,便会推荐‘主机磁盘空间清理’脚本。用户确认后,脚本将自动清理 /tmp 和 /var/log 下的冗余文件,释放存储空间,避免因磁盘满引发更严重的服务中断。整个过程不仅高效,而且通过标准化脚本避免了人为操作差异带来的风险。 此外,该工具也适用于需要严格审计和合规要求的组织。由于所有执行动作都必须经过用户明示确认,并且详细记录在 `.execution_log.json` 中,包括时间戳、执行ID、主机信息和结果状态,因此非常适合金融、政务等对操作留痕有强监管需求的行业。即使发生误操作,也能通过日志快速定位原因并支持回滚。同时,工具禁止在没有明确 IP 的情况下猜测目标主机,杜绝了潜在的安全隐患,真正实现了自动化与可控性的平衡。