WebChat Voice Proxy 是一个为 OpenClaw WebChat 设计的语音输入增强工具,现已拆分为独立模块。它通过本地 HTTPS 反向代理和 WebSocket 透传,将语音识别功能集成到 WebChat 的控制界面中,支持实时语音转写、推送式录音(Push-to-Talk)和连续录音切换模式。该工具默认运行在本地回环地址,确保安全性;若需从其他设备访问,可配置 LAN IP 暴露服务,但仅限可信网络使用。其核心依赖是本地部署的 faster-whisper HTTP 服务,提供 `/transcribe` 端点用于音频流处理。整个系统以 systemd 用户服务持久化运行,并自动注入脚本以保证重启后恢复,同时支持多语言界面(英语、德语、中文),可根据浏览器语言自动适配或手动覆盖。
核心功能特点
- 支持 Push-to-Talk(按住说话)和 Toggle(点击开关录音)两种语音录制模式,可通过双击麦克风按钮快速切换
- 提供键盘快捷键:Ctrl+Space 实现 Push-to-Talk,Ctrl+Shift+M 控制连续录音启停,提升操作效率
- 内置实时音量可视化反馈,麦克风按钮随语音强度动态缩放,增强交互体验
- 自动检测浏览器语言并本地化 UI 提示、占位符及通知信息,已预置英语、德语、中文三种语言包
- 通过自签名 TLS 证书建立本地 HTTPS 连接(端口 8443),保障通信安全,首次访问需手动信任证书
- 支持自定义语言扩展,开发者可在 voice-input.js 中添加新的 I18N 条目并重新部署以支持更多语种
适用场景
WebChat Voice Proxy 主要面向需要高质量语音输入集成的开发者和终端用户。典型应用场景包括远程会议系统中实时语音转录、客服聊天机器人的人声交互优化、以及无障碍辅助技术中为视障用户提供语音输入支持。由于依赖本地 faster-whisper 模型进行语音识别,该方案特别适合对隐私敏感或对云端 API 延迟要求较高的环境。例如,在企业内部部署时,可通过设置 VOICE_HOST 指定局域网 IP,使多台设备(如平板、手机)均能安全接入同一语音通道。此外,结合 Gateway 的允许来源白名单机制,可精准控制哪些前端页面有权调用语音功能,避免跨站风险。对于持续运行的自动化流程,systemd 服务的持久化设计确保了系统重启后无需人工干预即可恢复完整语音栈。
