MOSS TTSD 双人对话合成

MOSI Studio 双人对话合成(moss-ttsd):将两个角色的对话文本合成为 单段连续音频,两人声音自然交替。 当前版本限制:仅支持 2 人对话,仅支持中文和英文。 触发词:多说话人、双人对话、对话合成、两个角色、两种声音、两个人说话、 "multi-speaker"、"dialogue synthes...

安装

概览

MOSS TTSD 双人对话合成(moss-ttsd)是一款专为多说话人语音合成设计的工具,能够将多个角色的对话文本实时合成为一段自然流畅的连续音频。该工具的核心能力在于支持最多5个说话人之间的交替对话,通过 `[S1]`~`[S5]` 标签精准控制每位说话人的发言顺序与内容,实现类似真实多人交谈的语音效果。目前版本主要面向中英文双语场景,适用于需要生成角色对话、播客访谈、有声书旁白或游戏对白等复杂语音内容的开发者与创作者。其底层基于先进的语音合成模型,结合声学建模与韵律预测技术,确保不同说话人声音在切换时保持自然过渡,避免生硬断裂。整个系统通过命令行接口调用,集成于 MOSI Studio 技能生态中,支持自定义音色克隆与公有音色库灵活搭配,满足不同风格需求。

核心功能特点

  1. 支持1至5个说话人同时参与对话合成,使用[S1]~[S5]标签精准标记发言者
  2. 自动处理多说话人语音交替,输出单段连续WAV音频,无停顿或重叠
  3. 兼容公有音色库及用户自定义克隆音色,提供丰富声线选择
  4. 支持长文本输入(最长约60分钟音频),可通过参数调节防止截断
  5. 命令行操作,集成于MOSI Studio框架,便于自动化流程接入

适用场景

MOSS TTSD 特别适用于需要模拟真实多人互动场景的语音生成任务。例如,在游戏开发中用于制作NPC之间的自然对话,使玩家沉浸感显著提升;在在线教育领域,可用于创建师生问答类课程音频,增强学习体验的真实性。此外,该工具也广泛应用于有声读物创作,尤其是包含多个叙述角色的故事讲述,如儿童绘本配音或广播剧制作。对于企业培训材料而言,它能高效生成客服与客户、面试官与候选人等不同角色间的对话范例,降低内容制作成本。由于支持中英文双语且具备灵活的说话人数量控制,MOSS TTSD 同样适合跨国团队协作项目中的多语言语音内容生产。无论是短对话片段还是长达数十分钟的连续对白,该工具都能稳定输出高质量、低延迟的合成结果。