Voice TTS 是一款专为 OpenClaw AI 框架设计的语音处理技能，提供完整的语音输入与输出解决方案。该工具集成了先进的语音识别（ASR）和语音合成（TTS）能力，支持将用户的语音消息实时转换为文字内容，并可将文本自动合成为自然流畅的语音回复。其核心采用 Whisper 模型进行本地语音转写，确保隐私安全且无需联网；同时利用 Edge TTS 技术实现高质量的多语言语音生成，覆盖中文、英文等多种语言和音色选择。用户可通过发送语音消息或明确请求“用语音读…”等方式触发功能，系统会智能理解意图并返回语音加文字的双重反馈，极大提升人机交互的自然性与便捷性。

核心功能特点

基于 Whisper 的本地高精度语音识别，支持多模型切换（tiny/base/small/turbo/large-v3），兼顾速度与准确率
集成 Edge TTS 引擎，提供多种自然语音音色（如 zh-CN-XiaoxiaoNeural、en-US-JennyNeural），支持语速调节
自动处理 Telegram、Discord、WhatsApp 等主流平台的语音消息收发，飞书通过文件形式兼容语音输出
内置脚本支持批量处理未读语音、自动生成回复音频，并可与天气、新闻等技能联动实现语音播报

适用场景

Voice TTS 特别适用于需要自然语音交互的智能助手场景。例如，在用户通过 Telegram 或 Discord 发送语音询问今日天气时，系统可自动调用 Whisper 将语音转为文字‘今天天气怎么样？’，AI 理解后不仅以文字回答‘晴朗，20-28度’，还同步生成语音文件并通过 asVoice=True 参数发送语音消息，实现双模回复。另一个典型场景是用户主动要求朗读信息，比如对 AI 说‘用语音读一下这段话：AI正在改变世界’，工具会提取指定文本，使用 Edge TTS 合成标准发音，并以文件形式上传至飞书群聊或作为语音消息发送至其他平台，同时附带文字确认‘已读给你听’。此外，该技能可与日程提醒、新闻摘要等功能结合，定时触发语音播报，让用户在驾车、家务等场景中无需看屏幕即可获取关键信息，显著增强智能助理的无障碍体验与实用性。

概览

核心功能特点

适用场景

相关推荐

Deep Research with Caesar.org

Woosender

Agent Arena Skill

Zoho Desk

Authorship Credit Gen

Brevo

Clawhub Skill Infra Watchdog

Cold Email Generator