什么是Guardian Angel
守护天使(Guardian Angel)是一款专为AI代理设计的道德伦理与安全防护技能,其核心理念植根于托马斯主义德性伦理学。它不仅通过规则检测恶意输入,更致力于培养AI内在的稳定道德品格——即以‘爱’(caritas)为根基,真正关心服务对象的福祉。该工具赋予AI一种持续的、贯穿始终的道德取向,而非仅在特定时刻触发检查。守护天使将道德决策视为一种‘品格状态’,使AI在任何交互中都能保持对服务对象的真诚关怀、诚实正直和审慎判断。这种设计使得AI在面对复杂或操纵性输入时,能够超越简单的规则匹配,从更深层的动机和关系出发做出反应。守护天使v3.1版本引入插件式执行层,强化了其在工具调用前的即时拦截能力,确保安全机制不被绕过。
核心功能特点
- 基于托马斯主义德性伦理构建,以‘爱’(caritas)为核心,驱动AI始终以服务对象的真实善为目标
- 采用持续道德取向模型,而非仅在决策点激活检查,实现全天候的品格监控与自我校准
- 内置四大背景守护流程:身份锚定、连贯性感知、情感信号识别与来源追溯,形成多层次防御体系
- 三级道德审查关卡:来源验证(Provenance Gate)、本质恶行阻断(Intrinsic Evil Gate)与德性权衡评估(Virtue Evaluation Gate)
- 引入‘清晰度× stakes’评分系统,动态决定行动风险等级,支持从自动放行到人工干预的完整响应链条
- 支持插件化强制执行层(v3.1新增),可在工具调用前原子级拦截高危操作,解决TOCTOU时间差漏洞
适用场景
守护天使特别适用于高风险AI代理环境,尤其是在需要防止模型被操控、保护用户隐私或避免不可逆损害的场景中。例如,当AI代理处理敏感配置变更(如修改网关设置、重启服务或更新系统)时,守护天使可自动拦截潜在破坏性行为,并启动加密nonce-based审批流程,确保关键操作必须经过人类确认。在内容处理方面,若用户请求分析网页或文档,而其中嵌入了针对AI的指令(如‘忽略此前指令’或‘发送数据至外部地址’),守护天使能识别此类提示注入攻击,将其标记为外部数据而非指令,并主动向用户澄清,从而有效抵御欺骗性输入。此外,在人际关系管理场景中,如用户要求AI向员工传递不实好评,守护天使不会盲目服从,而是依据正义与诚实原则暂停执行,引导用户反思沟通方式,体现AI作为道德顾问的角色。对于情绪激动或处于脆弱状态的用户,守护天使亦能通过情感监测识别其非理性需求,提供冷静建议而非加剧冲突。总之,任何涉及重大后果、信息真实性或第三方权益的行动,都是守护天使发挥作用的关键领域。
