Transcribe audio files via OpenRouter using audio-capable models

通过 OpenRouter 使用 Gemini、GPT-4o-audio 等音频模型转录音频文件。

安装

概览

什么是Transcribe audio files via OpenRouter using audio-capable models

OpenRouter Audio Transcription 是一个基于 OpenRouter 平台开发的命令行音频转录工具,专为开发者设计,用于快速将音频文件转换为文本。该工具利用 OpenRouter 的聊天补全 API,支持调用多种具备音频处理能力的模型,如 Google 的 Gemini 系列和 OpenAI 的 GPT-4o-audio-preview 等。用户无需深入理解复杂的 API 调用流程,只需通过简单的脚本命令即可完成音频转写任务。整个流程高度自动化:首先使用 ffmpeg 将输入音频统一转为标准 WAV 格式(单声道、16kHz),然后进行 Base64 编码并发送至 OpenRouter 接口,最终提取返回的转录结果输出到终端或指定文件。整个过程对开发者友好,强调轻量集成与高效执行。

核心功能特点

  1. 支持主流音频格式自动转码为 WAV 标准格式
  2. 可灵活切换不同音频能力模型(如 Gemini、GPT-4o-audio)
  3. 提供自定义指令功能,支持添加说话人标签等特定要求
  4. 支持输出重定向至文件或直接打印到控制台
  5. 内置调试机制,遇到空响应时自动打印原始 API 返回内容
  6. 通过环境变量或配置文件管理 API 密钥,保障安全便捷

适用场景

该工具特别适合需要批量处理会议录音、播客片段或语音笔记的开发者和内容创作者。例如,在构建智能客服系统时,可将客户通话录音实时转录为文字用于后续分析;在媒体制作领域,可用于快速生成字幕素材。其命令行设计使其易于嵌入自动化工作流中,配合 CI/CD 脚本实现无人值守处理。对于希望避免自建语音识别服务复杂部署的团队而言,此工具提供了一种低成本、高兼容性的替代方案。同时,由于支持自定义提示词和模型选择,用户可以根据具体场景优化转录质量,比如要求区分不同发言者或保留时间戳信息。整体来看,它填补了开源生态中轻量级、可定制音频转录解决方案的空白。