将文本或字幕文件转换为语音音频,支持声音克隆、情感控制、速度调整和时间轴精准配音,使用Kokoro或Noiz等引擎

安装

概览

TTS(Text-to-Speech)是一个强大的文本转语音工具,支持将任意文本或字幕文件转换为高质量语音音频。该工具采用模块化设计,提供两种后端引擎:Kokoro本地引擎和Noiz云端API,用户可根据需求灵活选择。在基础模式下,用户只需输入文本即可快速生成语音,适用于简单的朗读场景;而在时间轴精准模式下,则能实现字幕级同步的配音效果,特别适合视频配音、有声书制作等需要精确控制每个片段时长的任务。 TTS的核心优势在于其高度可定制的声音控制能力。它不仅支持多种预设音色,还允许通过参考音频进行声音克隆,让生成的语音接近特定人物的声音特征。此外,借助Noiz后端,用户还能对每段语音施加情感参数(如喜悦、平静、愤怒等),显著提升语音表现力。速度调节功能也一应俱全,无论是加快语速播报新闻,还是放慢节奏用于教学讲解,都能轻松应对。 该工具特别注重实际应用场景中的效率与兼容性。无论是处理纯文本、EPUB电子书,还是SRT格式字幕文件,TTS都能无缝转换并输出为MP3、OGG或Opus等常见音频格式。对于开发者而言,它提供了命令行接口,便于集成到自动化流程中;同时支持第三方平台(如飞书、Telegram、Discord)的消息推送,极大扩展了使用边界。即使没有配置API密钥,系统也会自动启用访客模式,提供15种内置音色供基础体验使用。

核心功能特点

  1. 支持两种后端引擎:本地Kokoro与云端Noiz,满足不同性能与功能需求
  2. 具备声音克隆功能,可通过参考音频路径或URL复制特定人声特征
  3. 提供情感控制参数(emo),实现喜怒哀乐等多种情绪表达
  4. 支持时间轴精准配音模式,实现字幕级同步的SRT文件转语音
  5. 可调节语速、语言及音频输出格式(MP3/OGG/Opus等)
  6. 兼容第三方平台消息推送,支持飞书、Telegram、Discord集成

适用场景

TTS最典型的应用场景是有声读物制作。无论是将长篇博客文章、学术论文还是小说章节转为音频书籍,用户都可以利用其简单模式快速生成流畅自然的朗读内容。配合Kokoro引擎对中文字符的高效处理,特别适合中文内容的批量转换,而章节划分功能则让EPUB或PDF文档的音频化变得极为便捷。 另一个高频使用场景是视频配音与字幕同步。当需要将外语影片翻译成中文并重新配音时,TTS的时间轴模式能够根据SRT字幕文件逐句生成对应语音,确保口型与语音完全匹配。此时结合动态参考音频切片功能(–ref-audio-track),甚至可以在翻译过程中直接复用原始视频中的说话者声音片段,实现更真实自然的双语切换效果。 企业客服与教育领域也能从中获益。例如,在智能语音助手开发中,通过设置不同的voice-id和emo参数,可以快速构建具有亲和力或专业感的AI角色;而在在线教育场景中,教师可用不同音色分别扮演学生和老师,增强互动感。即便没有API密钥,访客模式下的15种预设音色也已能满足基础培训材料录制、播客试音等轻量级需求。