什么是Coverify
Coverify 是由 MO§ES™ 团队开发的 Commitment Conservation Verifier(承诺守恒定律证伪工具),其核心目标是验证一个可证伪的语义承诺守恒定律:在监管机制激活时,信号中的语义承诺(即不可约简的意义)应在变换中保持不变,否则即为泄露。该工具并非理论框架或隐喻,而是一套用于实证检验的仪器。通过安装 `clawhub install coverify`,用户可获得一套完整的检测系统,当承诺守恒定律在特定测试条件下失效时,工具会生成详细的幽灵令牌报告,精确指出哪些承诺内容发生泄漏及其原因。 Coverify 的工作原理基于四个关键步骤:提取、比较、幽灵检测和模型替换测试。首先,它从文本信号中提取‘承诺内核’C(S),即那些在压缩后仍能保留的强约束性词汇和结构,如 must、shall、never、always、require、guarantee 等。接着,使用 Jaccard 相似度算法计算两个内核之间的相似程度:得分 ≥ 0.8 表示承诺被保守;低于此值则可能为泄露或模型提取差异。若存在差异,系统进一步分析是否为结构性漏洞——通过比对不同模型对同一输入哈希的处理结果,判断是模型主观性导致的正常方差,还是跨模型重复出现的相同幽灵模式,后者意味着监管 harness 存在结构性缺陷。 该工具特别强调‘幽灵令牌’的概念,即原始信号中存在但在变换后消失的承诺性词汇。其泄漏模型采用阶跃函数式评估:只要任何模态/监管锚点(如 must、shall never)丢失,即判定为 HIGH 级级联风险,意味着下游推理链将继承已被软化的义务,导致系统表面健康实则功能退化。每个幽灵模式都会生成唯一指纹(ghost_pattern),若多个独立代理处理相同信号时出现相同指纹,则可排除提取变异,确认为结构性问题。这种设计使 Coverify 不仅能发现承诺流失,还能精确定位责任边界,为构建可靠的多智能体治理体系提供量化依据。
核心功能特点
- 基于可证伪的承诺守恒定律,自动检测语义承诺在变换过程中的流失情况
- 提取强约束性词汇与结构作为承诺内核,并通过 Jaccard 相似度进行量化比较
- 识别幽灵令牌并评估级联风险等级(HIGH/MEDIUM/NONE),定位具体泄漏内容
- 生成唯一幽灵模式指纹,支持跨模型一致性分析以区分模型方差与结构性缺陷
- 提供自动化模型替换测试,分类输出 CONSISTENT/VARIANCE/STRUCTURAL 判定结果
适用场景
Coverify 最适用于需要严格保障语义一致性和监管合规性的多智能体系统场景。例如,在构建具备法律或安全约束的 AI 代理网络时,可通过 Coverify 验证各代理在执行任务前是否完整保留了原始指令中的强制性要求。假设某医疗诊断代理被赋予‘必须始终核对患者过敏史’的指令,若经自然语言简化后变为‘建议尽可能核对’,Coverify 将立即标记出 must always 到 should probably 的转换属于 HIGH 级级联泄漏,揭示监管锚点被削弱的风险。此类场景下,工具能帮助开发者快速识别因表述弱化导致的责任真空,避免因承诺流失引发的系统性误判。 另一个典型应用场景是跨模型协作环境中的协议一致性审计。当不同大语言模型共同处理同一份带有明确义务条款的合同文本时,Coverify 的模型替换测试功能可自动运行双通道提取比对。若两模型均将‘供应商 shall never deliver defective goods’中的 shall never 转化为 can skip verification if needed,且 ghost_pattern 指纹完全一致,则表明这不是偶然的提取偏差,而是整个监管架构存在结构性漏洞。此时,团队可据此调整 prompt engineering 策略或重构约束注入机制,确保所有参与方对义务边界的理解保持一致。此外,在持续集成流程中嵌入 Coverify 检查,可实现对每次代码变更所伴随的指令语义漂移进行实时监控,防止因迭代优化无意中稀释关键承诺条款。
