Voice TTS

语音处理技能 - 完整的语音输入输出解决方案。功能:(1) 语音识别 ASR - 将用户语音转录为文字(使用 Whisper)(2) 语音合成 TTS - 将文字转换为语音(使用 Edge TTS)。触发场景:用户发送语音消息、主动要求"用语音读..."、"语音回复"等。支持平台:Telegram、Discord...

安装

概览

Voice TTS 是一款专为 OpenClaw AI 框架设计的语音处理技能,提供完整的语音输入与输出解决方案。该工具集成了先进的语音识别(ASR)和语音合成(TTS)能力,支持将用户的语音消息实时转换为文字内容,并可将文本自动合成为自然流畅的语音回复。其核心采用 Whisper 模型进行本地语音转写,确保隐私安全且无需联网;同时利用 Edge TTS 技术实现高质量的多语言语音生成,覆盖中文、英文等多种语言和音色选择。用户可通过发送语音消息或明确请求“用语音读…”等方式触发功能,系统会智能理解意图并返回语音加文字的双重反馈,极大提升人机交互的自然性与便捷性。

核心功能特点

  1. 基于 Whisper 的本地高精度语音识别,支持多模型切换(tiny/base/small/turbo/large-v3),兼顾速度与准确率
  2. 集成 Edge TTS 引擎,提供多种自然语音音色(如 zh-CN-XiaoxiaoNeural、en-US-JennyNeural),支持语速调节
  3. 自动处理 Telegram、Discord、WhatsApp 等主流平台的语音消息收发,飞书通过文件形式兼容语音输出
  4. 内置脚本支持批量处理未读语音、自动生成回复音频,并可与天气、新闻等技能联动实现语音播报

适用场景

Voice TTS 特别适用于需要自然语音交互的智能助手场景。例如,在用户通过 Telegram 或 Discord 发送语音询问今日天气时,系统可自动调用 Whisper 将语音转为文字‘今天天气怎么样?’,AI 理解后不仅以文字回答‘晴朗,20-28度’,还同步生成语音文件并通过 asVoice=True 参数发送语音消息,实现双模回复。另一个典型场景是用户主动要求朗读信息,比如对 AI 说‘用语音读一下这段话:AI正在改变世界’,工具会提取指定文本,使用 Edge TTS 合成标准发音,并以文件形式上传至飞书群聊或作为语音消息发送至其他平台,同时附带文字确认‘已读给你听’。此外,该技能可与日程提醒、新闻摘要等功能结合,定时触发语音播报,让用户在驾车、家务等场景中无需看屏幕即可获取关键信息,显著增强智能助理的无障碍体验与实用性。