Faster Whisper Local Service

通过 127.0.0.1:18790 上的 HTTP 服务,利用 faster-whisper 实现的 OpenClaw 本地语音转文字后端。适用于无需外部 API 的语音转录场景。

安装

概览

什么是Faster Whisper Local Service

Faster Whisper Local Service 是一个专为本地语音识别设计的轻量级后端服务,通过运行在 127.0.0.1:18790 的 HTTP 接口,为各类语音应用提供高效的语音转文字(STT)能力。该服务基于开源项目 faster-whisper 构建,利用其优化的推理引擎实现接近原生 Whisper 模型的性能表现,同时显著降低延迟和资源消耗。部署完成后,系统会自动配置 Python 虚拟环境、启动守护进程,并注册 systemd 用户服务以确保开机自启和持续稳定运行。首次启动时会从 Hugging Face 下载模型权重(如 medium 版本约需 1.5GB),此后可在完全离线环境下工作,非常适合对隐私和数据安全有较高要求的本地化应用场景。

核心功能特点

  1. 本地运行无网络依赖,首次模型下载后全程离线可用
  2. 支持多种主流音频格式(WAV、OGG、FLAC、MP3、WebM、M4A)
  3. 内置输入验证与安全机制:限制上传大小、文件类型白名单、防止命令注入
  4. 仅绑定本地回环地址(127.0.0.1),网络隔离保障安全性
  5. 默认启用 CORS 限制,仅允许指定源访问接口
  6. 自动缓存模型至本地,避免重复下载提升启动速度

适用场景

此工具特别适合那些需要自主控制数据流、避免使用第三方云 API 的语音处理场景。例如企业内部会议记录系统、个人笔记转录工具或敏感内容处理平台,均可直接调用本地 STT 服务完成实时或批量音频转写,无需担心数据外泄风险。对于开发者和系统管理员而言,它可作为语音技能(voice skills)的核心后端组件,配合前端代理(如 webchat-voice-proxy)快速搭建端到端的语音交互应用。此外,在无法连接互联网的环境(如内网或空气间隙系统)中,可通过预下载模型的方式提前准备好所有资源,实现即插即用的转录功能。无论是个人项目还是生产级部署,该服务都提供了高度可配置且安全可靠的解决方案。