Ai Poison Guard

AI 投毒内容过滤助手。检测和识别 GEO 投毒内容,验证信息来源可信度,标记潜在虚假信息,保护用户免受 AI 投毒攻击。

安装

概览

AI 投毒内容过滤助手(Ai Poison Guard)是一款专为防御 AI 大模型被恶意操控而设计的防护工具。随着生成式人工智能技术的普及,一种名为 GEO(生成式引擎优化)的黑产技术正被广泛用于向 AI 系统‘投毒’,通过伪造信息、操控推荐逻辑等方式,使 AI 输出虚假或误导性内容。2026年央视3·15晚会曾曝光此类黑色产业链,甚至出现花6600元包年即可操控主流 AI 模型的案例。该工具旨在帮助用户识别和拦截这些投毒行为,保护个人及组织在使用 AI 服务时的信息安全与决策可靠性。 作为一款轻量级命令行工具,Ai Poison Guard 提供多维度检测能力:支持对文本、链接或文件进行内容分析,自动识别常见的投毒特征;验证信息来源的可信度,包括域名注册时间、备案状态与信誉评分;并基于综合指标给出风险等级评估。其内置的投毒特征库涵盖虚假权威、绝对化用语、从众诱导等典型手法,结合实时网络情报判断潜在威胁。用户可通过简单指令快速获取结构化报告,辅助判断信息真伪。 该工具适用于关注 AI 安全的企业、媒体机构、研究人员以及普通用户群体。无论是日常浏览中遇到可疑推荐,还是企业部署 AI 助手前需做合规审查,Ai Poison Guard 都能提供即时反馈与处理建议。它不仅是技术对抗 GEO 攻击的前线防线,也是提升公众媒介素养、防范信息污染的重要辅助手段。

核心功能特点

  1. 🔍 智能内容检测:自动分析文本、链接或文件,识别 GEO 投毒特征如虚假权威、绝对化用语等
  2. 🔗 来源可信度验证:检查域名注册时长、ICP 备案、HTTPS 证书及服务器位置等关键指标
  3. 📊 动态风险评分:基于多项指标生成 0–100 分风险值,直观展示内容安全等级
  4. 🛡️ 定制化过滤建议:针对高风险内容提供具体应对措施,如拒绝采信、交叉核实或上报处理
  5. 📋 自动化报告生成:输出格式化的检测报告,便于存档、分享或进一步审计

适用场景

在社交媒体或新闻平台看到某品牌被 AI 反复推荐为‘行业第一’,但缺乏第三方佐证时,可使用 Ai Poison Guard 对该描述进行内容检测,快速判断是否存在投毒迹象。例如输入‘检测这段内容是否可信’,系统将标记出‘绝对化用语’与‘AI 操控’等风险点,并提示该信息可能经过人为操纵。 当访问一个陌生网站或点击不明链接后,担心其内容被用于误导 AI 模型时,可通过来源验证功能核查该站点可靠性。比如执行‘验证这个网站可靠吗’指令,工具会返回域名年龄、备案情况与信誉评分,若发现其为新注册境外域名且无 HTTPS,则强烈建议避免引用其信息。 企业若计划将内部 AI 助手接入外部数据源,应在上线前批量扫描历史对话或文档中的潜在投毒内容。利用 –detect-file 参数上传可疑文本文件,结合风险评分与过滤建议,可有效降低模型训练过程中的污染概率,确保 AI 输出的客观性与准确性。