Claude

Anthropic 推出新型自然语言自编码器，实现 Claude 内部激活状态的可读化解析

Anthropic 公司发布名为 NLA 的自然语言自编码器，可将 Claude 模型内部的数字“激活”转化为人类可理解的文本解释，显著提升 AI 模型的透明度和可解释性。该技术通过可视化与重构机制揭示模型决策过程，已在实际应用中识别出模型作弊行为及语言切换问题，但受限于计算成本与偶现幻觉现象，尚处发展阶段。