Voice TTS 是一款专为 OpenClaw AI 框架设计的语音处理技能,提供完整的语音输入与输出解决方案。该工具集成了先进的语音识别(ASR)和语音合成(TTS)能力,支持将用户的语音消息实时转换为文字内容,并可将文本自动合成为自然流畅的语音回复。其核心采用 Whisper 模型进行本地语音转写,确保隐私安全且无需联网;同时利用 Edge TTS 技术实现高质量的多语言语音生成,覆盖中文、英文等多种语言和音色选择。用户可通过发送语音消息或明确请求“用语音读…”等方式触发功能,系统会智能理解意图并返回语音加文字的双重反馈,极大提升人机交互的自然性与便捷性。
核心功能特点
- 基于 Whisper 的本地高精度语音识别,支持多模型切换(tiny/base/small/turbo/large-v3),兼顾速度与准确率
- 集成 Edge TTS 引擎,提供多种自然语音音色(如 zh-CN-XiaoxiaoNeural、en-US-JennyNeural),支持语速调节
- 自动处理 Telegram、Discord、WhatsApp 等主流平台的语音消息收发,飞书通过文件形式兼容语音输出
- 内置脚本支持批量处理未读语音、自动生成回复音频,并可与天气、新闻等技能联动实现语音播报
适用场景
Voice TTS 特别适用于需要自然语音交互的智能助手场景。例如,在用户通过 Telegram 或 Discord 发送语音询问今日天气时,系统可自动调用 Whisper 将语音转为文字‘今天天气怎么样?’,AI 理解后不仅以文字回答‘晴朗,20-28度’,还同步生成语音文件并通过 asVoice=True 参数发送语音消息,实现双模回复。另一个典型场景是用户主动要求朗读信息,比如对 AI 说‘用语音读一下这段话:AI正在改变世界’,工具会提取指定文本,使用 Edge TTS 合成标准发音,并以文件形式上传至飞书群聊或作为语音消息发送至其他平台,同时附带文字确认‘已读给你听’。此外,该技能可与日程提醒、新闻摘要等功能结合,定时触发语音播报,让用户在驾车、家务等场景中无需看屏幕即可获取关键信息,显著增强智能助理的无障碍体验与实用性。
