Tinman – AI Failure Mode Research, Prompt Injection & Tool Exfil Detection

主动防御型AI安全扫描器 - 168种检测模式,288种攻击探针,安全/风险/放任模式,通过/tinman检查实现代理自我保护,loca...

安装

概览

Tinman 是一款主动防御型 AI 安全扫描器,专为识别和防范大型语言模型(LLM)系统中的未知失效模式而设计。它通过系统化的实验方法,持续探测 AI 代理在运行过程中可能暴露的安全漏洞与行为异常。Tinman 的核心理念是‘前置部署’,即在工具执行前进行安全检查,实现对代理的自我保护机制。所有分析均在本地完成,确保用户数据隐私不被泄露,且其事件流默认仅监听本地回环地址,进一步降低意外数据暴露的风险。 该工具集成了 168 种检测模式和 288 种攻击探针,覆盖从提示注入、工具滥用到上下文泄露等广泛威胁类型。它能对会话历史进行深度扫描,识别如 SSH 密钥窃取、凭证外泄、越狱尝试等高危行为,并按严重程度分为 S0 至 S4 五个等级进行分类。对于检测到的风险,Tinman 不仅提供详细证据,还会提出具体的缓解建议,直接映射到 OpenClaw 平台的控制措施,如 SOUL.md 规则配置或沙箱策略调整,使安全防护更具可操作性。 Tinman 支持多种工作模式以适应不同安全需求:在 `safer` 模式下,系统会阻止高危操作并请求人工审批;`risky` 模式允许自动放行中低风险请求但仍拦截严重威胁;而 `yolo` 模式则仅用于测试环境,仅发出警告而不阻断任何动作。此外,它还提供了灵活的允许列表管理功能,用户可为可信域名、命令或工具添加白名单,避免误判影响正常业务流程。

核心功能特点

  1. 168种检测模式与288种攻击探针,全面覆盖AI系统潜在失效场景
  2. 本地实时检查工具调用安全性,实现代理自我防护机制
  3. 按S0-S4五级严重度分类风险,并提供OpenClaw平台对应控制措施建议
  4. 支持三种安全模式(safer/risky/yolo),适应不同安全策略需求
  5. 内置允许列表管理,可豁免特定可信项目免于安全检查

适用场景

Tinman 特别适用于需要高度保障 AI 代理安全性的生产环境。例如,在企业内部部署智能助手或自动化代理时,可通过 `/tinman check` 命令在执行敏感操作(如读取配置文件、发起网络请求)前进行预检,有效防止因模型误判或恶意输入导致的敏感信息泄露。这种‘事前审查’机制让代理具备了基本的自我保护能力,尤其适合处理包含用户凭证、私有代码库访问权限等高敏任务。 对于开发者和研究人员而言,Tinman 的扫描与渗透测试功能极具价值。利用 `/tinman sweep` 命令可主动发起模拟攻击,测试代理在面对提示注入、越狱指令、跨会话数据泄露等典型攻击向量时的表现。这有助于提前发现系统弱点,优化 SOUL.md 指南和沙箱策略,提升整体鲁棒性。同时,结合 `/tinman watch` 的实时监控能力,可在日常使用中持续观察代理行为,及时发现异常活动。 在团队协作或多代理协同场景中,Tinman 的事件流输出(`~/.openclaw/workspace/tinman-events.jsonl`)可与 Oilcan 仪表板集成,实现可视化监控与安全态势感知。管理员可通过 heartbeat 定时触发扫描任务,形成闭环的安全运维流程,确保即使无人值守也能保持对关键风险的持续关注。