MOSI Studio 音频全套能力是一套集成在 OpenClaw 平台中的专业级语音处理工具集,涵盖从语音识别到合成、再到多说话人对话生成和声音克隆的全链路功能。该工具基于 MOSI Studio 提供的统一 API 接口(Base URL: https://studio.mosi.cn),通过一系列 Shell 脚本和 Python 脚本实现,支持多种主流音频格式与交互场景。其核心设计遵循严格的文件路径铁律:所有生成的音频文件必须保存至 `~/.openclaw/workspace/` 目录,否则将被系统静默拦截导致失败。目前支持的主要能力包括文字转语音(TTS)、指令式语音生成、语音转文字(ASR)、多说话人对话合成(TTSD)、声音克隆以及飞书语音气泡发送。这些能力分别对应不同的模型(如 moss-tts、moss-voice-generator、moss-ttsd)和专用脚本,用户可根据需求选择调用方式。整体架构强调轻量化部署与低依赖运行,基础功能仅需 curl 和 node 即可实现,而高级功能如声音克隆或飞书消息推送则需额外安装 ffmpeg、python3 等依赖项。
核心功能特点
- 支持文字转语音(TTS)与多说话人对话合成(TTSD),可生成自然流畅的中文及英文语音内容
- 提供指令式语音生成功能,通过自然语言描述即可定制播音腔、温柔男声等多种风格的声音
- 具备完整的语音转文字(ASR)能力,支持 OGG/OPUS 等飞书入站语音格式自动解析与实时转写
- 集成声音克隆技术,可从短音频样本创建个性化音色并用于后续 TTS 合成
- 内置飞书语音气泡一键发送脚本,自动完成 WAV 转 OPUS、上传与消息投递全流程
- 严格限定输出路径为 ~/.openclaw/workspace/,确保媒体策略合规性与系统稳定性
适用场景
MOSI Studio 音频全套能力适用于需要快速集成高质量语音服务的各类智能助手与自动化流程场景。最常见的应用是处理来自飞书的语音消息——当用户发送语音时,OpenClaw 会在消息中注入 `[media attached:]` 前缀指向本地音频文件路径,此时系统应立即调用 ASR 脚本进行转写并直接回复文本内容,无需人工干预或调用飞书 API 下载文件。对于内容创作类应用,如播客制作或有声读物生成,多说话人对话合成(TTSD)功能尤为实用,它允许用户输入带 [S1]/[S2] 标签的对话文本,并指定不同角色的声音 ID,从而批量生成逼真的双人或多角色对话音频。此外,若开发者希望让机器人以特定人设发声(如新闻主播、温柔男声或活力少女),可通过指令式语音生成模块输入详细的声音特征描述,快速获得符合预期的语音输出。在企业内部通知、培训材料录制或客服语音播报等场景中,文字转语音结合自定义声音克隆也能显著提升效率。需要注意的是,所有涉及音频输出的操作都必须遵守路径规范,避免因写入 /tmp 或其他非 workspace 目录而导致任务失败。
