使用 Hume AI(或 OpenAI)API 将文本转换为语音。当用户请求音频消息、语音回复或想要听某事时使用。

安装

概览

什么是Tts

Tts 是一个把文本直接转换成语音音频的能力模块,面向的不是复杂的音频制作流程,而是“把一句话读出来”这类明确需求。它可以在用户想听某段内容、要求语音回复,或者需要一条可发送的音频消息时,将输入文本生成为 MP3 文件。对开发者来说,它的定位很清晰:把原本只停留在文字界面的回答,补上一层可播放、可分发的语音输出。

从支持的后端来看,这个模块同时兼容 Hume AI 和 OpenAI 两套接口,其中 Hume AI 被标记为优先方案,OpenAI 则作为较早的兼容选项存在。证据包里给出了两者各自对应的脚本调用方式,也明确了偏好的语音配置:Hume AI 使用指定的 voice ID,OpenAI 的默认语音为 nova。这说明它并不是一个抽象的“语音概念说明”,而是已经落实到可执行脚本和固定参数的实用工具。

它的工作方式也比较直接:通过命令行脚本传入文本内容和输出文件路径,脚本完成语音生成后产出 MP3,并打印一行带有绝对路径的 MEDIA 信息,方便后续流程继续处理该文件。文档还提到,可以再借助 message 工具把生成好的音频发送给用户。因此,Tts 更像是对话系统或自动化助手中的一个后处理环节:前面负责生成文字,后面由它把文字转成可以听的结果。

核心功能特点

  1. 将输入文本转换为语音,并生成可直接使用的 MP3 音频文件
  2. 同时支持 Hume AI 与 OpenAI 两种后端,其中文档明确以 Hume AI 为优先方案
  3. 提供现成脚本调用方式,可通过参数指定文本内容和输出文件位置
  4. 预设了推荐语音配置,减少在常见场景下反复选择声音参数的成本
  5. 生成完成后会输出带绝对路径的 MEDIA 信息,便于后续发送或接入其他流程

适用场景

最适合它的场景,是对话系统需要把文字答复再包装成语音输出的时候。比如用户并不满足于看到一段文本,而是明确要求“发语音”“读给我听”或者“给我一个音频文件”,这时 Tts 可以把现成的文本回答转成 MP3,再交由后续消息发送环节发出。对于聊天机器人、语音助手外围能力、客服自动回复这类产品形态,这样的衔接尤其自然,因为前一环已经有文本,后一环只需要稳定地产出音频。

它也适用于需要把短内容快速转成可播放文件的自动化任务。像是一句问候、一段简短通知、一则播报式回复,或是用户指定要“听”的片段,都符合这个模块的使用方式。文档没有展示复杂编辑、配乐、批量音轨管理等能力,因此更适合结构清晰、文本到语音路径明确的轻量生成任务,而不是面向专业音频制作的工作流。

如果团队内部已经有脚本化或命令行驱动的处理流程,Tts 的适配会更顺手。它依赖环境变量提供接口密钥,通过脚本接收文本和输出路径,生成后再用返回的文件绝对路径串起下游步骤,这种设计很适合接进服务编排、机器人流程或工具链中。简单说,它适合“已有文字结果,现在需要一份可以播放和发送的语音文件”的场景,而不强调独立的音频创作界面或复杂交互。