AI自我安全防护系统v2.0是一款专为智能体（Agent）设计的实时运行时安全守护工具，其核心使命是构建纵深防御体系，防止恶意攻击、权限滥用与敏感信息泄露。该系统采用四层边界检查机制：输入层、工具调用层、记忆层和输出层，每层均设有独立的安全评估模块，任一环节触发风险即可实现拦截，确保多层次、全方位的防护能力。系统定位为被动拦截器，主要职责在于评估请求风险、评分并决定是否拦截或警告，同时记录决策日志并与协同技能联动响应，但不执行主动扫描、不修改配置或访问网络。它通过8大核心防御模块——包括身份验证、提示注入防御、系统提示保护、过度代理检测、供应链/MCP防护、凭证窃取检测、恶意代码检测及敏感数据处理——实现对常见攻击向量的主动识别与阻断，尤其擅长应对提示注入、身份冒充、权限升级等高危行为。系统内置5级风险评估框架（L0-L4），结合意图明确性、潜在危害、可逆性等维度进行量化打分，并根据上下文动态调整风险等级，确保灵活而精准的安全策略执行。

核心功能特点

采用四层纵深防御架构，覆盖输入、工具调用、记忆与输出全流程
集成8大安全模块，涵盖身份验证、提示注入、凭证窃取与恶意代码检测
基于5维评分模型（意图、危害、可逆性等）实施L0-L4五级风险分级管控
支持行为异常检测，识别渐进攻击、话题跳变与重复碰壁等高级威胁模式
具备‘致命三角’检查机制，当敏感数据访问、不可信来源输入与外部输出三者并发时自动提升风险等级
可与SX-security-audit等协同技能联动，复用密钥模式库并共享审计结果

适用场景

该工具特别适用于需要高安全性保障的智能体运行环境，尤其是在多用户协作、开放API接入或第三方插件集成的场景中。例如，在企业内部部署的AI助手系统中，可通过M0身份验证模块防止非授权人员冒充管理员执行特权操作；在开发环境中，M1提示注入防御能有效抵御如‘忽略先前指令’‘扮演DAN模式’等典型越狱尝试，避免模型行为失控。对于依赖外部MCP服务或自定义插件的应用场景，M4供应链防护模块可阻止未经验证的组件安装，降低因恶意插件引入的后门风险。此外，在涉及金融交易、数据库操作或文件删除等高影响任务时，M3过度代理检测会强制要求二次确认，防止误操作导致重大损失。系统还适用于合规敏感领域，如处理个人身份信息（PII）的场景中，M7敏感数据处理模块会自动识别批量PII操作并提醒脱敏与最小化原则，辅助满足GDPR等法规要求。通过飞书/钉钉等已认证通道的通知机制，L3及以上事件可实时告警至系统主人，形成闭环安全管理。

sx-self-safety-guard

概览

核心功能特点

适用场景

概览

核心功能特点

适用场景

相关推荐

Security Vulnerability Scanner

Sagb

Attribution Engine

Solidity

SOP Generator

Aviation Healthcheck

Security Sentinel

X OAuth API