Lerwee Alert Inspection 是一款专为运维场景设计的设备健康巡检工具,通过纯 Python 脚本实现从数据采集、分析到报告生成的全流程自动化。该工具能够自动调用监控系统的 API,分别获取正常主机与异常主机的详细数据,并根据预设规则进行归一化处理。其核心优势在于将分散的告警信息整合为结构化的巡检报告,并以 Markdown 格式输出便于阅读和存档。同时,系统会生成标准化的 JSON 文件(hosts.json 和 problems.json),确保后续处理的一致性。整个流程无需人工干预,用户只需触发指令即可一键完成所有操作。 该工具特别适用于需要定期生成设备状态报告的运维团队。它不仅支持全量巡检,也允许按特定监控类型进行筛选,极大提升了灵活性。无论是日常例行检查还是突发故障排查,Lerwee Alert Inspection 都能快速提供清晰的状态概览和高危告警清单,帮助技术人员迅速定位问题源头。此外,工具内置的环境变量配置机制确保了不同测试和生产环境间的无缝切换,降低了部署复杂度。 最终交付物包括两份关键文件:一份是包含标题、告警统计、主机分布及结论建议的完整文本巡检报告;另一份则是严格按照规范生成的 Excel 工作簿,内含四个固定 Sheet——‘巡检概览’、‘正常主机’、‘异常主机’和‘异常详细清单’。这种双轨输出方式既满足了管理层对摘要信息的快速查阅需求,也为一线工程师提供了详尽的数据支撑,实现了从宏观到微观的全面覆盖。
核心功能特点
- 基于两次独立 host-list 查询分离正常与异常主机数据,避免单次全量拉取导致的误判
- 自动生成标准化 hosts.json 和 problems.json 文件,保证数据一致性并支持复用
- 采用 Markdown 模板生成结构化文本巡检报告,包含告警等级分布、主机状态统计与结论建议
- 导出四 Sheet Excel 工作簿,其中‘巡检概览’整合全部关键信息,其余三表分别展示主机详情与告警明细
- 支持按监控类型分类巡检,可通过命令行参数灵活指定目标设备类别
- 完全基于 Python 实现,依赖环境变量 LWJK_API_URL 和 LWJK_API_SECRET 对接外部监控系统
适用场景
Lerwee Alert Inspection 最典型的应用场景是运维团队的周期性设备健康检查。例如,每日清晨由值班人员执行一次全量巡检,系统会自动识别出所有处于异常状态的主机,并按紧急程度分类汇总。生成的巡检报告会明确指出需立即处理的 P4/P5 级告警数量,以及需要关注的次要/警告类问题,使运维人员能在第一时间聚焦高风险项。同时,附带的 Excel 文件可用于向管理层汇报当日整体运行状况,或作为交接班记录的一部分存档备查。 另一个高频使用场景是在系统升级或变更后进行的专项验证。当某类服务器(如数据库节点或负载均衡器)完成更新后,管理员可以指定监控类型为‘101’执行定向巡检,快速确认这些关键设备是否回归正常状态。此时工具不仅能展示当前告警情况,还能通过对比历史数据判断是否存在潜在隐患。若发现异常,Excel 中的‘异常详细清单’会列出每台受影响主机的 IP、告警描述、持续时长等字段,方便追踪根本原因并制定修复计划。 对于大型分布式架构而言,该工具同样具备实用价值。由于支持分批次、分区域执行巡检任务,企业可在不影响生产环境的前提下,对数百甚至上千台异构设备进行并行检测。结合自动落盘的 JSON 文件,后续还可集成至自动化运维平台,实现告警聚合、趋势分析和容量预测等功能,从而构建更智能的主动式运维体系。
