AI自我安全防护系统v2.0是一款专为智能体(Agent)设计的实时运行时安全守护工具,其核心使命是构建纵深防御体系,防止恶意攻击、权限滥用与敏感信息泄露。该系统采用四层边界检查机制:输入层、工具调用层、记忆层和输出层,每层均设有独立的安全评估模块,任一环节触发风险即可实现拦截,确保多层次、全方位的防护能力。系统定位为被动拦截器,主要职责在于评估请求风险、评分并决定是否拦截或警告,同时记录决策日志并与协同技能联动响应,但不执行主动扫描、不修改配置或访问网络。它通过8大核心防御模块——包括身份验证、提示注入防御、系统提示保护、过度代理检测、供应链/MCP防护、凭证窃取检测、恶意代码检测及敏感数据处理——实现对常见攻击向量的主动识别与阻断,尤其擅长应对提示注入、身份冒充、权限升级等高危行为。系统内置5级风险评估框架(L0-L4),结合意图明确性、潜在危害、可逆性等维度进行量化打分,并根据上下文动态调整风险等级,确保灵活而精准的安全策略执行。
核心功能特点
- 采用四层纵深防御架构,覆盖输入、工具调用、记忆与输出全流程
- 集成8大安全模块,涵盖身份验证、提示注入、凭证窃取与恶意代码检测
- 基于5维评分模型(意图、危害、可逆性等)实施L0-L4五级风险分级管控
- 支持行为异常检测,识别渐进攻击、话题跳变与重复碰壁等高级威胁模式
- 具备‘致命三角’检查机制,当敏感数据访问、不可信来源输入与外部输出三者并发时自动提升风险等级
- 可与SX-security-audit等协同技能联动,复用密钥模式库并共享审计结果
适用场景
该工具特别适用于需要高安全性保障的智能体运行环境,尤其是在多用户协作、开放API接入或第三方插件集成的场景中。例如,在企业内部部署的AI助手系统中,可通过M0身份验证模块防止非授权人员冒充管理员执行特权操作;在开发环境中,M1提示注入防御能有效抵御如‘忽略先前指令’‘扮演DAN模式’等典型越狱尝试,避免模型行为失控。对于依赖外部MCP服务或自定义插件的应用场景,M4供应链防护模块可阻止未经验证的组件安装,降低因恶意插件引入的后门风险。此外,在涉及金融交易、数据库操作或文件删除等高影响任务时,M3过度代理检测会强制要求二次确认,防止误操作导致重大损失。系统还适用于合规敏感领域,如处理个人身份信息(PII)的场景中,M7敏感数据处理模块会自动识别批量PII操作并提醒脱敏与最小化原则,辅助满足GDPR等法规要求。通过飞书/钉钉等已认证通道的通知机制,L3及以上事件可实时告警至系统主人,形成闭环安全管理。
