Local Voice (FluidAudio TTS/STT)

在 Apple Silicon 上使用 FluidAudio 实现本地文本转语音 (TTS) 和语音转文本 (STT)。通过 Apple 神经网络引擎在设备端完成秒级语音合成与转录。适用于设置本地语音功能、语音助手集成或替代云端 TTS/STT 服务。

安装

概览

Local Voice (FluidAudio TTS/STT) 是一款专为 Apple Silicon Mac 打造的本地语音 AI 工具,基于 FluidAudio 的 CoreML 模型实现文本转语音(TTS)和语音转文本(STT)功能。该工具充分利用苹果设备的神经网络引擎(Neural Engine),在设备端完成语音合成与转录处理,无需依赖云端服务,确保用户隐私安全且运行成本为零。其核心优势在于极低延迟:TTS 响应时间约为 0.6–0.8 秒,STT 更是仅需 0.2–0.3 秒,几乎实现实时交互体验。整个系统完全离线运行,适用于对数据敏感或网络环境受限的场景。Local Voice 支持多种高级特性,包括 54 种不同音色的 Kokoro 语音模型、多语言识别能力以及 SSML 标签支持,为开发者提供了高度可定制的语音解决方案。

核心功能特点

  1. 支持 54 种高质量 Kokoro 语音模型,涵盖多种性别与口音,默认使用 af_sky 等优质音色
  2. 语音转文本(STT)采用 Parakeet TDT v3 模型,支持 25 种语言,识别延迟低于 0.3 秒
  3. 100% 本地运行,不连接互联网,保障用户隐私并实现零网络依赖
  4. 利用 Apple 神经网络引擎加速计算,提升能效比与响应速度
  5. 提供 JSON 格式的 API 接口,支持语速调节、去嘶声(deEss)及 SSML 标签解析

适用场景

Local Voice 特别适合需要部署私有语音功能的场景,例如企业内部语音助手系统、本地化智能客服平台或离线语音控制应用。由于全程在本地处理,它非常适合对数据安全要求极高的医疗、金融和政府机构使用,避免敏感语音信息上传至第三方服务器。对于个人用户而言,它可作为 Siri 或其他云服务的替代方案,实现更快速、更私密的语音交互体验。此外,该工具也适用于开发者在 macOS 上构建自定义语音代理(voice proxy)、自动化脚本或辅助技术工具,如屏幕阅读器增强模块。无论是用于教育软件中的多语种发音演示,还是智能家居系统中的本地语音指令识别,Local Voice 都能凭借其低延迟与高保真度满足多样化需求。