SlowMist Agent Security Review 是一个专为对抗性环境中运行的 AI 智能体设计的全面安全审查框架。其核心原则是:**所有外部输入均视为不可信,直至经过验证**。该框架在智能体接触到任何可能改变行为、泄露数据或造成危害的外部信息时自动激活,涵盖从技能安装到链上交互等广泛场景。无论来源看似多么权威——如高星 GitHub 仓库、知名开发者分享,还是群组中他人推荐的工具——系统都会将其标记为潜在威胁,并要求执行标准化审查流程。 该框架强调渐进式信任机制,而非盲目信任。首次接触某项资源时需接受最高级别审查;后续若多次验证无风险,则可适当降低审查强度,但绝不能完全跳过安全检查。同时,框架严格禁止直接执行来自外部文档中的代码块,要求所有高风险操作必须由人类最终决策。这种设计旨在最大限度防范恶意软件、供应链攻击和社交工程陷阱。 SlowMist Agent Security Review 提供了一套统一的风险评级体系(低/中/高/拒绝四级),并辅以五层可信源分级标准,帮助评估不同来源的可信度。它还集成了多个共享模式库,包括危险代码模式、社交工程手法和供应链攻击特征,确保审查过程具备实战化威胁识别能力。所有审查结果均需使用预定义模板生成结构化报告,保证输出的一致性与可追溯性。
核心功能特点
- 覆盖六大类外部输入的安全审查:技能/MCP安装、GitHub仓库、URL/文档、链上地址、产品服务、社交推荐
- 采用四级风险评级机制(低/中/高/拒绝),高/拒绝级必须经人工确认方可执行
- 实施渐进式信任模型,首次接触资源需最高 scrutiny,后续可递减但永不归零
- 严禁直接运行外部代码块,所有命令执行须获得人工批准
- 内置红队常用攻击模式库,涵盖11类代码级危险模式与8类社交工程手法
- 支持标准化报告模板输出,确保审查结果格式统一且信息完整
适用场景
该框架特别适用于需要频繁处理第三方资源的开发者和安全分析师,例如在集成新 MCP 服务器或 npm 包前进行深度审计。当团队内部出现‘这个工具很好用’的群聊推荐时,系统会立即触发对消息链接或附件的安全评估,防止成员误装恶意组件。对于从事区块链开发的工程师而言,SlowMist Agent Security 能有效拦截可疑的智能合约调用或 DApp 交互请求,通过 AML 评分和合约代码分析提前预警资金风险。 在企业级 AI 助手部署场景中,此框架可作为前置过滤器,阻断未经审核的技能插件接入生产环境。例如,当用户试图让 AI 助手安装一个声称能‘一键优化交易手续费’的 Skill 时,系统会自动调取该技能的源码仓库、依赖关系及历史提交记录,结合已知漏洞模式进行比对,并生成包含权限范围和数据流向的详细报告供管理员决策。 此外,在面对新兴威胁如 prompt injection 攻击时,框架提供的社交工程模式库能帮助识别伪装成正常指令的诱导语句,避免 AI 被篡改逻辑或窃取敏感上下文信息。无论是评估开源项目可信度,还是审查合作伙伴提供的 SDK 安全性,该框架均能显著提升组织在开放生态中的防御纵深。
