Telegram Voice To Voice Macos

适用于 macOS Apple Silicon 的 Telegram 语音互转工具:利用 yap 转录入站 .ogg 语音,并通过 say+ffmpeg 回复语音消息。不兼容 Linux/Windows。

安装

概览

Telegram Voice To Voice Macos 是一款专为 macOS Apple Silicon 设备设计的语音互转工具,属于 OpenClaw 技能生态的一部分。该工具通过调用系统原生 Speech.framework 实现语音识别,并利用 ffmpeg 和 say 命令完成语音合成与回复,实现了 Telegram 平台上的端到端语音交互闭环。其核心工作流程为:接收用户发送的 .ogg 格式语音消息后,自动将其转录为文本,再根据预设模式生成语音或文字形式的回复并回传至 Telegram。由于深度依赖 macOS 特有的命令行工具(如 say)和系统框架,此技能目前仅支持 Apple Silicon 芯片的 Mac 电脑,无法在 Linux 或 Windows 系统上运行。 该工具支持两种回复模式——语音模式和文本模式,用户可通过发送特定指令动态切换。默认情况下,系统会保存每个 Telegram 用户的偏好设置到本地状态文件 `voice_state/telegram.json` 中,以区分不同用户的交互方式。当收到语音消息时,工具首先尝试从 OpenClaw 媒体目录 `~/.openclaw/media/inbound/` 获取最新的 .ogg 音频文件;若上下文已包含附件路径,则优先使用该路径以提高准确性。随后调用 yap CLI 进行语音转写,支持通过环境变量 YAP_LOCALE 自定义语言区域,默认使用 macOS 系统当前的语言设置。若转录失败或结果为空,系统将提示用户重新发送内容。 在语音回复模式下,工具采用系统默认语音引擎(SYSTEM),也可指定具体语音名称进行合成。生成的文本经 TTS 转换后输出为 OGG/Opus 格式的语音文件,并通过 OpenClaw 的消息接口以“语音留言”形式精准推送给原发消息者,而非普通音频附件。整个过程高度自动化,无需人工干预即可完成从接收到响应的全流程处理,极大提升了 Telegram 群组或私聊场景下的语音交互效率与体验。

核心功能特点

  1. 专为 macOS Apple Silicon 设计,利用系统 Speech.framework 实现高精度语音识别
  2. 支持语音与文本双回复模式,用户可通过 /audio on/off 指令实时切换
  3. 自动提取 Telegram 语音消息并转换为可处理的 .ogg 文件
  4. 集成 yap CLI 进行多语言语音转写,支持自定义语言区域(YAP_LOCALE)
  5. 使用 ffmpeg 和 say 命令生成自然语音回复,支持选择系统或指定语音
  6. 通过 OpenClaw 消息接口以标准语音留言形式回传,保持聊天界面一致性

适用场景

这款工具特别适合需要在 Telegram 上高效处理语音消息的技术爱好者、远程工作者或社群管理员。例如,在一个跨国协作团队中,成员遍布不同时区且习惯使用语音沟通,管理员可以部署此工具来自动转录收到的语音指令,并以语音形式快速反馈操作结果,避免频繁打字打断思路。对于经常参与在线会议或讲座的用户而言,该工具能即时将他人分享的语音片段转为文字摘要,再以语音形式复述关键信息,便于边听边记。此外,在个人知识管理场景中,用户可将 Telegram 作为语音笔记收集渠道,工具自动将其转化为结构化文本并生成语音版本存档,方便后续检索与回放。 由于该方案完全基于命令行脚本和开源组件构建,它也为开发者提供了良好的扩展基础。熟悉 Shell 脚本的开发者可以修改 transcribe_telegram_ogg.sh 或 tts_telegram_voice.sh 脚本来集成第三方 ASR/TTS 服务(如 Whisper 或 Google Cloud Speech-to-Text),从而突破 macOS 原生框架的限制,提升识别准确率或多语言支持能力。同时,结合 OpenClaw 的状态管理机制,未来还可扩展出更复杂的对话逻辑,比如记忆上下文、执行命令解析等高级功能。尽管目前仅限 macOS 使用,但其模块化设计使其具备良好的跨平台潜力,一旦适配其他操作系统,有望成为 Telegram 自动化交互的重要基础设施之一。