HITL协议(Human in the Loop Protocol)是一个专为自主智能体设计的开放标准,旨在确保在关键决策场景中人类始终处于控制地位。随着AI代理越来越多地代表用户访问网站和服务——如搜索职位、预订行程或提交申请——某些涉及重大利益的环节必须由人类亲自判断。该协议通过HTTP 202状态码触发人工审核流程,返回一个包含review_url和poll_url的结构化对象,使代理能够将请求转发给用户,而无需自行渲染界面。用户在熟悉的聊天工具(如Telegram、Slack、WhatsApp等)中接收提示,点击链接进入服务方提供的富交互页面完成操作,整个过程透明可控,避免因AI幻觉或误判导致损失。
HITL协议的设计哲学是‘最小侵入性’:它不强制使用特定SDK或UI框架,仅依赖标准的HTTP通信机制即可实现完整功能。对于简单决策(如确认/取消、批准/拒绝),协议还支持原生消息按钮模式(v0.7),允许代理直接在聊天界面展示操作按钮,用户点击后自动提交结果,无需跳转浏览器。这种混合模式兼顾了便捷性与安全性,敏感数据始终保留在用户本地浏览器中,不会流经代理服务器。此外,协议支持五种核心审核类型——审批、选择、输入、确认和升级——每种类型对应不同的交互逻辑和数据结构,满足多样化的业务需求。
作为一种面向未来的协作范式,HITL协议将服务、代理与人类三者连接起来,类似于OAuth之于身份认证的作用。它不仅定义了状态流转模型(从pending到completed/expired/cancelled),还规定了超时处理、提醒机制、多轮编辑等高级特性。开发者只需遵循规范实现API端点,即可让第三方代理无缝集成其人工审核能力;同时,代理开发者也无需重复造轮子,仅需处理HTTP响应并根据字段选择合适的人机交互方式即可。整个生态强调互操作性、安全性和用户体验的统一,是当前构建可信AI系统的关键基础设施之一。
核心功能特点
- 基于HTTP 202的标准人工介入机制,兼容所有主流Web框架
- 支持五种审核类型:审批、选择、结构化输入、确认操作和错误升级
- 可选原生消息按钮模式(v0.7),在Telegram/Slack等平台直接交互
- 严格的状态机管理,涵盖pending/opened/in_progress/completed等生命周期阶段
- 内置安全机制:43字符高熵令牌、SHA-256哈希存储、HTTPS强制要求
- 灵活传输层支持:默认轮询 + SSE实时推送 + Webhook回调
适用场景
HITL协议最适用于那些需要人类判断但又不希望完全放弃自动化效率的场景。典型用例包括求职平台中代理发现多个匹配岗位时,需用户手动勾选意向职位并备注筛选条件;金融类应用执行转账或保单变更前,必须获得用户明确授权;电商平台在自动下单前验证收货地址或支付方式是否正确;甚至软件开发中部署高危操作前,应由工程师最终确认配置参数。这些情境下,单纯依赖AI可能引发灾难性后果——发错邮件、转错账、删错数据库等,而HITL协议通过‘代理做决定+人类做把关’的分层架构有效规避风险。
在实际部署中,企业可选择启用‘强制HITL选择’策略,在API层面要求调用方显式声明prefer_hitl或skip_hitl标志,防止代理绕过人工审核。例如招聘系统中,当用户询问‘帮我投递柏林的高级开发岗’时,若未指定跳过审核,则系统返回HTTP 202及review_url,代理将提示‘找到5个职位,请查看详情后选择投递哪些’,用户可在美观的卡片列表中勾选并添加备注,完成后代理再拉取结果继续后续流程。对于更复杂的表单填写场景(如填写薪资期望、工作偏好),则必须引导至完整网页表单,利用日期选择器、范围滑块等控件提升体验。
值得一提的是,协议还支持质量改进循环机制:即使首次请求未触发HITL,成功响应中也可附带improvement_suggestions字段,指导代理如何优化下一次请求的数据质量。比如简历投递失败后,系统可建议‘补充期望薪资范围’,代理据此重新提交,最多进行两轮优化。这不仅提高了成功率,也增强了人机协作的流畅度。总体而言,任何涉及金钱、隐私、法律效力或重大个人选择的自动化流程,都值得考虑采用HITL协议来平衡效率与安全性。
