Speak Turbo – Talk to your Claude 90ms latency!

赋予Agent实时语音交互能力。与Claude对话!超快TTS文字转语音,约90毫秒低延迟音频输出。

安装

概览

Speak Turbo 是一款专为实时语音交互设计的命令行工具,旨在赋予智能体(Agent)与人类用户之间近乎即时的对话能力。它通过集成先进的文字转语音(TTS)技术,实现了约90毫秒的低延迟音频输出,让用户几乎感觉不到等待时间。该工具的核心优势在于其极快的响应速度,特别适合需要快速反馈的应用场景。首次运行时,由于需启动守护进程并加载模型,会有2-5秒的初始化延迟;但后续调用将稳定在毫秒级响应,显著提升交互体验。Speak Turbo 默认使用名为 ‘alba’ 的女性声音,但也提供包括 ‘marius’、’javert’、’jean’ 在内的7种内置男声和女声供选择,满足不同偏好。整个系统架构简洁高效,由轻量级 Rust CLI 客户端与 Python 后端守护进程组成,后者基于 pocket-tts 引擎实现流式音频生成。

核心功能特点

  1. 超快 TTS 输出:首次音频延迟仅约90毫秒,实现接近实时的语音反馈
  2. 8种内置高质量语音:包含4位男性与4位女性声音选项,无需额外配置
  3. 自动守护进程管理:首次调用自动启动,空闲1小时后自动关闭以节省资源
  4. 安全的文件输出控制:默认仅允许写入临时目录及用户配置目录,支持自定义白名单
  5. UTF-8 文本支持与流式输出:可处理含引号的复杂文本,长文本边生成边播放
  6. 跨平台兼容:支持 macOS/Linux 系统,提供标准 WAV 格式输出

适用场景

Speak Turbo 特别适用于对响应速度有严苛要求的实时交互场景。例如,在构建需要即时语音反馈的 AI 助手或聊天机器人时,其90ms的首音延迟能极大提升用户体验,避免传统 TTS 工具常见的明显停顿感。对于开发者在本地调试语音合成功能、验证 API 响应时间或进行性能基准测试的场景,Speak Turbo 提供了直观且高效的命令行接口。此外,当项目需求聚焦于快速原型开发而非追求极致音质或多变情感表达时,这款工具的轻量化设计和即用型内置音色使其成为理想选择。虽然它不支持像 ‘[laugh]’ 这样的情感标签或 Morgan Freeman 级别的自定义克隆音色,但对于大多数强调速度与可靠性的应用场景而言,Speak Turbo 在速度与便利性之间取得了极佳平衡。