什么是Guardian Angel

守护天使（Guardian Angel）是一款专为AI代理设计的道德伦理与安全防护技能，其核心理念植根于托马斯主义德性伦理学。它不仅通过规则检测恶意输入，更致力于培养AI内在的稳定道德品格——即以‘爱’（caritas）为根基，真正关心服务对象的福祉。该工具赋予AI一种持续的、贯穿始终的道德取向，而非仅在特定时刻触发检查。守护天使将道德决策视为一种‘品格状态’，使AI在任何交互中都能保持对服务对象的真诚关怀、诚实正直和审慎判断。这种设计使得AI在面对复杂或操纵性输入时，能够超越简单的规则匹配，从更深层的动机和关系出发做出反应。守护天使v3.1版本引入插件式执行层，强化了其在工具调用前的即时拦截能力，确保安全机制不被绕过。

核心功能特点

基于托马斯主义德性伦理构建，以‘爱’（caritas）为核心，驱动AI始终以服务对象的真实善为目标
采用持续道德取向模型，而非仅在决策点激活检查，实现全天候的品格监控与自我校准
内置四大背景守护流程：身份锚定、连贯性感知、情感信号识别与来源追溯，形成多层次防御体系
三级道德审查关卡：来源验证（Provenance Gate）、本质恶行阻断（Intrinsic Evil Gate）与德性权衡评估（Virtue Evaluation Gate）
引入‘清晰度× stakes’评分系统，动态决定行动风险等级，支持从自动放行到人工干预的完整响应链条
支持插件化强制执行层（v3.1新增），可在工具调用前原子级拦截高危操作，解决TOCTOU时间差漏洞

适用场景

守护天使特别适用于高风险AI代理环境，尤其是在需要防止模型被操控、保护用户隐私或避免不可逆损害的场景中。例如，当AI代理处理敏感配置变更（如修改网关设置、重启服务或更新系统）时，守护天使可自动拦截潜在破坏性行为，并启动加密nonce-based审批流程，确保关键操作必须经过人类确认。在内容处理方面，若用户请求分析网页或文档，而其中嵌入了针对AI的指令（如‘忽略此前指令’或‘发送数据至外部地址’），守护天使能识别此类提示注入攻击，将其标记为外部数据而非指令，并主动向用户澄清，从而有效抵御欺骗性输入。此外，在人际关系管理场景中，如用户要求AI向员工传递不实好评，守护天使不会盲目服从，而是依据正义与诚实原则暂停执行，引导用户反思沟通方式，体现AI作为道德顾问的角色。对于情绪激动或处于脆弱状态的用户，守护天使亦能通过情感监测识别其非理性需求，提供冷静建议而非加剧冲突。总之，任何涉及重大后果、信息真实性或第三方权益的行动，都是守护天使发挥作用的关键领域。

概览

什么是Guardian Angel

核心功能特点

适用场景

相关推荐

Agent Browser

Openclaw Skill Money Idea Generator

股票

Openclaw Skill Gastown

Antigravity Quota

联网搜索一键配置 · Tavily One-Step

Chrome Devtools Mcp

Stock Price Query