Firm Prompt Security Pack

提示词注入与越狱检测工具包。包含16个编译的正则表达式模式,涵盖3个严重级别(严重、高、中)。支持单提示词和批量处理。

安装

概览

Firm Prompt Security Pack 是一款专为保护基于大语言模型(LLM)的智能代理而设计的提示词安全防护工具包。它通过一套高度编译的正则表达式模式,有效识别和拦截各类潜在的提示词注入攻击与越狱尝试,从而保障 LLM 应用的安全边界不被恶意绕过。该工具包覆盖从严重到中等三个威胁级别,能够检测包括系统指令覆盖、ChatML标签注入、DAN风格越狱、Base64编码规避以及数据泄露请求等多种高级攻击手法。其核心优势在于无需依赖外部库或复杂配置,仅需 `mcp-openclaw-extensions >= 3.0.0` 即可无缝集成至现有代理系统中,实现纯正则驱动的快速扫描,极大提升了部署效率与运行稳定性。 该工具包提供两种主要使用模式:单提示词检测和批量处理。用户可通过 `openclaw_prompt_injection_check` 函数对单个输入进行实时安全校验,也可利用 `openclaw_prompt_injection_batch` 对多条消息进行并发扫描,适用于高吞吐量的对话场景。检测结果会返回详细的威胁类型、严重等级及匹配内容,便于开发者根据策略选择阻断、告警或记录日志。整个流程设计轻量且可嵌入性强,可直接置于智能代理的输入管道前端,确保所有用户消息在到达模型前均经过严格过滤。 作为一款专注于防御性工程的产品,Firm Prompt Security Pack 强调“零额外依赖”和“即时生效”的特性,适合在资源受限或需快速响应安全威胁的环境中优先采用。尽管其检测机制基于正则表达式,可能存在一定的误报或漏报风险,因此建议在实际生产环境中结合人工审核与多维度验证机制共同使用,以平衡安全性与开发体验。总体而言,它是一个面向 AI 安全领域的实用型中间件组件,旨在为 LLM 驱动的自动化系统提供第一道主动防护屏障。

核心功能特点

  1. 支持16种编译正则表达式模式,涵盖严重、高、中三级威胁检测
  2. 可识别系统指令覆盖、ChatML标签注入、DAN越狱等典型攻击向量
  3. 提供单条与批量两种扫描模式,适配不同规模的消息处理需求
  4. 纯正则引擎实现,无外部依赖,易于集成到现有代理架构中
  5. 返回结构化检测结果,包含威胁类型、等级及具体内容定位

适用场景

Firm Prompt Security Pack 特别适用于需要防范提示词注入风险的 LLM 应用场景,例如客服机器人、代码生成助手、内容审核系统等直接暴露于用户输入的 AI 服务。在这些场景中,攻击者可能试图通过精心构造的文本诱导模型忽略预设规则、执行危险操作或泄露内部信息。使用该工具包可在用户消息进入模型处理流程前自动执行扫描,一旦发现异常模式立即触发告警或拦截,防止恶意指令被执行。 对于企业级 AI 平台而言,该工具包是构建纵深防御体系的关键一环。它不仅可用于实时监控生产环境中的用户交互,还能辅助开发者在测试阶段识别潜在漏洞,提升整体系统的鲁棒性。此外,由于其轻量级设计和低延迟特性,也适合部署在边缘计算节点或资源受限的设备上,实现对本地 LLM 应用的实时保护。 在教育、金融、医疗等对合规性和安全性要求较高的行业,该工具包同样具有广泛应用价值。例如,在培训类 AI 助教系统中,可防止学生尝试绕过知识边界;在金融咨询机器人中,可阻止非法指令导致敏感数据外泄。通过将 Firm Prompt Security Pack 集成至标准输入流水线,组织能够在不牺牲用户体验的前提下,显著降低因提示词攻击引发的安全风险。