Voice Reply Mode

使智能体能根据接收的消息类型以相同模态回复:语音消息回复语音,文本消息回复文本,使用 Edge TTS 和配置片段实现。

安装

概览

Voice Reply Mode 是一款专为智能体设计的技能插件,旨在让 AI 助手能够根据用户输入的消息模态进行匹配回复。当用户发送语音消息时,智能体会以语音形式回应;当用户发送文本消息时,则返回文本内容。这种一致性交互体验显著提升了沟通的自然度和可用性,尤其适用于需要保持对话风格统一的应用场景。该技能通过配置工作区文档(如 `SOUL.md`、`IDENTITY.md` 和 `TOOLS.md`)来定义行为规则,并结合 Edge TTS 技术实现语音合成功能。它不自动修改用户的网关配置,而是提供可复用的代码片段和部署指南,让用户在明确授权后手动集成到现有系统中。整体设计兼顾灵活性与可控性,适合希望增强人机交互真实感的开发者使用。

核心功能特点

  1. 支持按输入模态匹配输出:语音输入对应语音回复,文本输入对应文本回复
  2. 基于 Edge TTS 实现高质量语音合成,支持本地生成音频文件
  3. 提供完整的配置片段和工作区模板,便于快速集成到不同平台
  4. 包含 Telegram 和飞书等主流通讯渠道的部署说明与注意事项

适用场景

Voice Reply Mode 特别适用于那些强调自然交互体验的智能对话系统。例如,在企业客服场景中,当客户通过语音留言咨询问题时,AI 可以直接用语音回答,避免文字转语音的生硬感,提升服务温度;而在教育类应用中,学生发送语音提问后获得语音讲解,比阅读长段文字更直观高效。此外,对于偏好语音沟通的用户群体(如老年用户或驾驶场景),该模式能有效降低使用门槛。由于该技能依赖网关层级的 `messages.tts.auto = “inbound”` 设置,因此也适合已有成熟 AI 架构的团队在不重构前端的前提下,通过调整后端配置即可启用语音回传功能。无论是自建聊天机器人还是集成第三方通讯平台,只要支持自定义消息处理逻辑,均可借助此技能实现模态一致的响应机制。