Local Voice (FluidAudio TTS/STT) 是一款专为 Apple Silicon Mac 打造的本地语音 AI 工具，基于 FluidAudio 的 CoreML 模型实现文本转语音（TTS）和语音转文本（STT）功能。该工具充分利用苹果设备的神经网络引擎（Neural Engine），在设备端完成语音合成与转录处理，无需依赖云端服务，确保用户隐私安全且运行成本为零。其核心优势在于极低延迟：TTS 响应时间约为 0.6–0.8 秒，STT 更是仅需 0.2–0.3 秒，几乎实现实时交互体验。整个系统完全离线运行，适用于对数据敏感或网络环境受限的场景。Local Voice 支持多种高级特性，包括 54 种不同音色的 Kokoro 语音模型、多语言识别能力以及 SSML 标签支持，为开发者提供了高度可定制的语音解决方案。

核心功能特点

支持 54 种高质量 Kokoro 语音模型，涵盖多种性别与口音，默认使用 af_sky 等优质音色
语音转文本（STT）采用 Parakeet TDT v3 模型，支持 25 种语言，识别延迟低于 0.3 秒
100% 本地运行，不连接互联网，保障用户隐私并实现零网络依赖
利用 Apple 神经网络引擎加速计算，提升能效比与响应速度
提供 JSON 格式的 API 接口，支持语速调节、去嘶声（deEss）及 SSML 标签解析

适用场景

Local Voice 特别适合需要部署私有语音功能的场景，例如企业内部语音助手系统、本地化智能客服平台或离线语音控制应用。由于全程在本地处理，它非常适合对数据安全要求极高的医疗、金融和政府机构使用，避免敏感语音信息上传至第三方服务器。对于个人用户而言，它可作为 Siri 或其他云服务的替代方案，实现更快速、更私密的语音交互体验。此外，该工具也适用于开发者在 macOS 上构建自定义语音代理（voice proxy）、自动化脚本或辅助技术工具，如屏幕阅读器增强模块。无论是用于教育软件中的多语种发音演示，还是智能家居系统中的本地语音指令识别，Local Voice 都能凭借其低延迟与高保真度满足多样化需求。

概览

核心功能特点

适用场景

相关推荐

predict-intelligence

Google Analytics & Search & Indexing with support for multiple Properties

Science Milestones & Research Trader

Monkeytype Tracker and Advisor

AetherLang

agentskills-io

Market Research Agent

Zapier MCP