Voice Reply Mode 是一款专为智能体设计的技能插件，旨在让 AI 助手能够根据用户输入的消息模态进行匹配回复。当用户发送语音消息时，智能体会以语音形式回应；当用户发送文本消息时，则返回文本内容。这种一致性交互体验显著提升了沟通的自然度和可用性，尤其适用于需要保持对话风格统一的应用场景。该技能通过配置工作区文档（如 `SOUL.md`、`IDENTITY.md` 和 `TOOLS.md`）来定义行为规则，并结合 Edge TTS 技术实现语音合成功能。它不自动修改用户的网关配置，而是提供可复用的代码片段和部署指南，让用户在明确授权后手动集成到现有系统中。整体设计兼顾灵活性与可控性，适合希望增强人机交互真实感的开发者使用。

核心功能特点

支持按输入模态匹配输出：语音输入对应语音回复，文本输入对应文本回复
基于 Edge TTS 实现高质量语音合成，支持本地生成音频文件
提供完整的配置片段和工作区模板，便于快速集成到不同平台
包含 Telegram 和飞书等主流通讯渠道的部署说明与注意事项

适用场景

Voice Reply Mode 特别适用于那些强调自然交互体验的智能对话系统。例如，在企业客服场景中，当客户通过语音留言咨询问题时，AI 可以直接用语音回答，避免文字转语音的生硬感，提升服务温度；而在教育类应用中，学生发送语音提问后获得语音讲解，比阅读长段文字更直观高效。此外，对于偏好语音沟通的用户群体（如老年用户或驾驶场景），该模式能有效降低使用门槛。由于该技能依赖网关层级的 `messages.tts.auto = “inbound”` 设置，因此也适合已有成熟 AI 架构的团队在不重构前端的前提下，通过调整后端配置即可启用语音回传功能。无论是自建聊天机器人还是集成第三方通讯平台，只要支持自定义消息处理逻辑，均可借助此技能实现模态一致的响应机制。

概览

核心功能特点

适用场景

相关推荐

Deep Research with Caesar.org

Woosender

Agent Arena Skill

Zoho Desk

Authorship Credit Gen

Brevo

Clawhub Skill Infra Watchdog

Cold Email Generator