Aegis Shield

针对不受信任文本进行提示词注入与数据泄露筛查。适用于总结网页/邮件/社交媒体内容、回复前,尤其是写入记忆前。提供安全的记忆追加工作流(扫描 -> 检查 -> 接受或隔离)。

安装

概览

Aegis Shield 是一款专为防范提示词注入和数据泄露而设计的文本安全扫描工具,适用于处理来自不可信来源的文本内容。它能够在内容被用于总结、回复或写入记忆之前,自动检测潜在的恶意模式,如提示词注入(prompt injection)、数据外泄(exfiltration)以及工具滥用行为。该工具的核心理念是‘不信任任何外部输入’,通过严格的预处理机制确保系统安全性。无论是网页抓取内容、用户邮件还是社交媒体信息,Aegis Shield 都能在关键操作前提供风险评级与隔离建议,从而有效防止敏感信息泄露或系统被操控。其设计初衷是为了在自动化流程中嵌入一道主动防御层,尤其适合对安全性要求较高的智能代理或记忆增强型应用。

核心功能特点

  1. 实时扫描不可信文本,识别提示词注入、数据外泄和工具滥用等高风险模式
  2. 提供细粒度风险评分(score)与严重等级(severity),支持自动隔离或人工审核决策
  3. 内置安全记忆追加工作流,强制扫描与清洗后再写入记忆,避免直接写入污染数据
  4. 支持本地执行,无需联网即可完成内容分析与处理,保障隐私与合规性
  5. 配套脚本 `openclaw-safe-memory-append.js` 实现声明式内存条目写入,附带状态反馈(接受/隔离)

适用场景

Aegis Shield 特别适用于需要频繁处理外部输入的智能代理系统,例如自动摘要生成器或客服机器人。当这些系统从网页、邮件或社交平台获取内容时,原始文本可能包含隐藏的恶意指令或敏感信息,直接处理极易引发安全风险。此时,Aegis Shield 可在内容进入核心逻辑前进行前置扫描,若检测到中高风险特征,则自动将其隔离而非继续流转,显著降低被攻击的概率。另一个典型场景是知识库或记忆系统的更新流程。许多应用允许动态添加新记忆以提升长期能力,但若未加防护,攻击者可通过精心构造的文本植入虚假或危险信息。使用 Aegis Shield 的安全追加脚本,可确保每次记忆写入都经过扫描、清洗与验证,仅当内容安全时才真正写入持久化存储。这种机制尤其适合多用户协作环境或开放API服务,能有效防止恶意用户利用记忆功能进行横向渗透或信息窃取。