HaS Privacy(简称 HaS)是一款专注于本地数据隐私保护的命令行工具,提供文本和图像双重匿名化能力。它通过集成先进的本地化大语言模型和目标检测模型,能够在设备端完成敏感信息的识别与脱敏处理,无需将原始数据上传至云端,从而有效保障用户隐私安全。HaS支持多种主流语言环境下的实体类型识别,并采用语义化标签替代敏感内容,确保后续流程中信息的可追溯性与可用性。无论是需要向第三方系统发送前清理文档内容,还是对照片、截图等视觉材料进行隐私区域遮蔽,HaS都能以轻量级、高可控的方式满足企业级和个人用户的隐私合规需求。 该工具的核心优势在于其统一而灵活的 CLI 接口设计:`has text` 子命令负责处理纯文本文档,支持扫描、隐藏(匿名化)和还原三大操作;`has image` 则针对图像文件提供扫描、掩码及类别发现功能。两者均具备批量处理能力,且输出结果为结构化的 JSON 格式,便于自动化集成或人工审查。特别地,文本匿名化采用 “ 的语义标签体系,不仅保留了上下文结构,还允许在 LLM 推理后通过映射文件精准还原原始信息,极大提升了下游任务的数据可用性。此外,HaS 默认运行于本地环境,内置自动启动机制,用户可通过环境变量自定义模型路径与并行度参数,增强了部署灵活性和性能调优空间。
核心功能特点
- 支持8种语言的文本匿名化(中文、英文、法文、德文、西班牙文、葡萄牙文、日文、韩文),涵盖开放式实体类型命名
- 图像模块基于 YOLO 分割模型,可识别21类隐私敏感对象,包括人脸、身份证件、车牌、二维码、屏幕界面等
- 文本匿名化使用语义化标签替换敏感内容,支持后续无损还原,适用于 LLM 交互场景
- 图像掩码提供马赛克、模糊、填充三种方法,针对二维码/条码自动增强遮蔽强度以防解码残留
- CLI 接口简洁统一,支持单文件与目录批量处理,输出结构化 JSON 便于集成与审计
- 所有处理均在本地完成,不依赖网络传输,符合严格的隐私保护要求
适用场景
HaS 特别适合那些需要在分享或上传内容前主动清除隐私数据的场景。例如企业客服在处理客户反馈时,常需将包含个人姓名、电话号码或住址的工单导出为报告共享给内部团队,此时可使用 `has text hide` 快速生成匿名版本,并保留映射关系以便后续恢复关键信息。又如研发人员撰写技术文档时引用了真实用户日志,可通过扫描并替换其中的敏感字段,既满足合规要求又不影响文档可读性。对于涉及多语言混合内容的国际化项目,HaS 的多语言支持尤为实用,只需根据源文本语言选择对应的实体类型名称即可完成精准识别。 在图像隐私保护方面,HaS 广泛应用于社交媒体内容审核、办公环境截图分发以及远程协助中的屏幕共享等环节。例如员工拍摄工位照片用于内部培训,但画面中出现了同事面部或工牌信息,可通过 `has image hide –type face –type id_card` 实现一键遮蔽;再如客服人员录制故障排查视频时,若画面中出现纸质单据上的账号信息或手机屏幕显示的操作界面,也可利用 HaS 的图像掩码功能快速打码。尤其值得一提的是,当遇到大面积二维码或条形码时,HaS 会自动提升马赛克粒度以确保编码无法被机器识别,避免因像素化不足导致的信息泄露风险。这些特性使得 HaS 成为数字内容创作者、运维工程师乃至普通用户在日常工作中维护隐私安全的得力助手。
