Telegram Voice To Voice Macos 是一款专为 macOS Apple Silicon 设备设计的语音互转工具，属于 OpenClaw 技能生态的一部分。该工具通过调用系统原生 Speech.framework 实现语音识别，并利用 ffmpeg 和 say 命令完成语音合成与回复，实现了 Telegram 平台上的端到端语音交互闭环。其核心工作流程为：接收用户发送的 .ogg 格式语音消息后，自动将其转录为文本，再根据预设模式生成语音或文字形式的回复并回传至 Telegram。由于深度依赖 macOS 特有的命令行工具（如 say）和系统框架，此技能目前仅支持 Apple Silicon 芯片的 Mac 电脑，无法在 Linux 或 Windows 系统上运行。该工具支持两种回复模式——语音模式和文本模式，用户可通过发送特定指令动态切换。默认情况下，系统会保存每个 Telegram 用户的偏好设置到本地状态文件 `voice_state/telegram.json` 中，以区分不同用户的交互方式。当收到语音消息时，工具首先尝试从 OpenClaw 媒体目录 `~/.openclaw/media/inbound/` 获取最新的 .ogg 音频文件；若上下文已包含附件路径，则优先使用该路径以提高准确性。随后调用 yap CLI 进行语音转写，支持通过环境变量 YAP_LOCALE 自定义语言区域，默认使用 macOS 系统当前的语言设置。若转录失败或结果为空，系统将提示用户重新发送内容。在语音回复模式下，工具采用系统默认语音引擎（SYSTEM），也可指定具体语音名称进行合成。生成的文本经 TTS 转换后输出为 OGG/Opus 格式的语音文件，并通过 OpenClaw 的消息接口以“语音留言”形式精准推送给原发消息者，而非普通音频附件。整个过程高度自动化，无需人工干预即可完成从接收到响应的全流程处理，极大提升了 Telegram 群组或私聊场景下的语音交互效率与体验。

核心功能特点

专为 macOS Apple Silicon 设计，利用系统 Speech.framework 实现高精度语音识别
支持语音与文本双回复模式，用户可通过 /audio on/off 指令实时切换
自动提取 Telegram 语音消息并转换为可处理的 .ogg 文件
集成 yap CLI 进行多语言语音转写，支持自定义语言区域（YAP_LOCALE）
使用 ffmpeg 和 say 命令生成自然语音回复，支持选择系统或指定语音
通过 OpenClaw 消息接口以标准语音留言形式回传，保持聊天界面一致性

适用场景

这款工具特别适合需要在 Telegram 上高效处理语音消息的技术爱好者、远程工作者或社群管理员。例如，在一个跨国协作团队中，成员遍布不同时区且习惯使用语音沟通，管理员可以部署此工具来自动转录收到的语音指令，并以语音形式快速反馈操作结果，避免频繁打字打断思路。对于经常参与在线会议或讲座的用户而言，该工具能即时将他人分享的语音片段转为文字摘要，再以语音形式复述关键信息，便于边听边记。此外，在个人知识管理场景中，用户可将 Telegram 作为语音笔记收集渠道，工具自动将其转化为结构化文本并生成语音版本存档，方便后续检索与回放。由于该方案完全基于命令行脚本和开源组件构建，它也为开发者提供了良好的扩展基础。熟悉 Shell 脚本的开发者可以修改 transcribe_telegram_ogg.sh 或 tts_telegram_voice.sh 脚本来集成第三方 ASR/TTS 服务（如 Whisper 或 Google Cloud Speech-to-Text），从而突破 macOS 原生框架的限制，提升识别准确率或多语言支持能力。同时，结合 OpenClaw 的状态管理机制，未来还可扩展出更复杂的对话逻辑，比如记忆上下文、执行命令解析等高级功能。尽管目前仅限 macOS 使用，但其模块化设计使其具备良好的跨平台潜力，一旦适配其他操作系统，有望成为 Telegram 自动化交互的重要基础设施之一。

概览

核心功能特点

适用场景

相关推荐

Deep Research with Caesar.org

Woosender

Agent Arena Skill

Zoho Desk

Authorship Credit Gen

Brevo

Clawhub Skill Infra Watchdog

Cold Email Generator