Presidio Pii Scrubber for sensitive info

{ "answer": "OpenClaw 代理的本地 PII 保护。在数据到达 AI 模型前清洗客户数据(姓名、电话、邮箱、地址、信用卡、船名)。" }

安装

概览

Presidio PII Scrubber 是一款专为保护敏感信息而设计的本地数据脱敏工具,通过代理机制在客户数据进入 AI 模型前自动识别并匿名化处理个人身份信息(PII)。该工具部署于用户本地环境,确保所有原始数据仅传输至本机容器进行处理,不会外泄至任何外部服务。其核心能力覆盖姓名、电话号码、邮箱地址、物理地址、信用卡号、社会安全号码等多种常见敏感字段,同时支持自定义识别规则以适应特定行业需求。

Presidio 采用‘Fail-Closed’安全策略:当系统健康检查失败时,将主动阻止对任何包含客户数据的源进行查询,并向操作者明确提示原因,防止因服务中断导致未授权的数据暴露。整个处理流程分为四步——首先执行健康检测,随后对原始数据进行清洗并生成带标记的匿名文本,接着基于脱敏内容进行推理分析,最后将结果还原为用户可读的真实信息。在此过程中,真实与匿名之间的映射关系始终保存在本地加密文件中,并在响应返回后立即删除,极大降低了数据泄露风险。

该工具适用于多种涉及客户信息的业务场景,如从 CRM 系统(如 Salesforce)、云存储平台或项目管理软件中提取数据时,必须先行脱敏才能交由大语言模型处理。它不仅保障了合规性要求,也提升了企业在利用 AI 技术时的安全性与可控性。

核心功能特点

  1. 本地部署运行,所有数据处理均在用户机器上完成,不向外部发送客户数据
  2. 内置多种标准 PII 类型识别能力,包括姓名、电话、邮箱、地址、信用卡号等
  3. 支持自定义识别器配置,可针对企业特有的标识符(如船名、项目 ID)增强检测精度
  4. 遵循 Fail-Closed 原则,服务异常时自动阻断客户数据访问,避免未授权暴露
  5. 提供完整的端到端处理流程:脱敏→推理→还原,全程保留上下文一致性
  6. 自动清理临时映射文件,确保敏感信息不会长期留存于磁盘中

适用场景

Presidio PII Scrubber 最典型的应用场景是企业在调用 AI 模型分析来自客户系统的原始数据之前,必须确保其中不包含可直接识别个体的敏感信息。例如,当从 HubSpot 或 Salesforce 同步客户沟通记录时,若文本中包含真实姓名、联系方式或住址,则需先经过 Presidio 清洗,将‘张三,电话 13812345678,北京市朝阳区’转换为‘[PERSON_1],电话 [PHONE_NUMBER_1],[LOCATION_1]’,再由 AI 模型理解语义并生成回复。处理完成后,AI 输出的带有占位符的结果会被反向解析,恢复为真实客户名称和细节,供最终用户查看。

此外,该工具也适用于其他存在类似需求的场景,比如从 Google Drive 下载的客户反馈文档、从 Asana 导出的项目协作日志,或是从内部聊天工具中提取的需求描述。只要这些内容可能包含客户个人信息,就应在输入 AI 引擎前强制启用 Presidio 脱敏流程。而对于纯内部运营数据,如产品规格参数、SOP 术语、财务金额(无客户关联)、系统状态码等,则无需过滤,可直接用于 AI 推理,提升处理效率。

特别需要注意的是,Presidio 并不适用于系统管理任务或通用对话场景。它的设计初衷是作为一道不可绕过的安全关卡,专门拦截和处理一切可能携带客户 PII 的数据流,从而帮助企业满足 GDPR、CCPA 等隐私法规的要求,降低法律与声誉风险。