Voice Transcribe 是一款基于 OpenAI 的 gpt-4o-mini-transcribe 模型开发的音频转录工具，专为高效处理语音备忘录、会议录音等音频文件而设计。该工具支持多种常见音频格式，包括 MP3、MP4、WAV、M4A、WebM 和 OGG 等，用户只需通过命令行即可快速将音频内容转换为准确的英文文本。其核心优势在于能够结合自定义词汇表和文本替换规则，显著提升特定术语或人名识别的准确性，尤其适用于包含专有名词或行业术语的音频内容。此外，工具内置了基于音频文件哈希值的缓存机制，避免重复请求 API，进一步提升处理效率。整个系统依赖 uv 作为 Python 包管理工具，配置简单，适合开发者集成到自动化工作流中。该工具特别适用于需要频繁处理语音消息的场景，例如通过 WhatsApp 接收的大量语音留言。用户可直接在终端运行命令完成转录，并进一步将结果管道输出至其他工具进行复制、编辑或分析。虽然默认设定为英语转录且不支持自动语言检测，但通过灵活的词汇提示和替换规则，可以有效应对口音、发音模糊或拼写错误等问题。整体架构轻量、响应迅速，是个人助理、远程工作者和内容创作者处理语音信息的高效解决方案。

核心功能特点

基于 OpenAI gpt-4o-mini-transcribe 模型，提供高精度英文语音转文字服务
支持 MP3、MP4、WAV、M4A、WebM、OGG 等多种主流音频格式
支持自定义词汇表（vocab.txt），提升专有名词和行业术语识别准确率
支持文本替换规则（replacements.txt），强制修正特定词语的转录结果
内置音频文件哈希缓存机制，避免重复请求 API，提升处理效率
可通过管道（pipe）将转录结果直接传递给其他命令行工具使用

适用场景

Voice Transcribe 非常适合需要快速将语音内容转化为可编辑文本的实际应用场景。例如，当用户频繁通过 WhatsApp、微信等平台接收语音消息时，无需手动聆听每条留言，只需将音频文件传入工具即可获得清晰转录文本，极大节省时间并提高信息处理效率。对于远程办公团队而言，该工具可用于自动转录线上会议录音，生成会议纪要初稿，便于后续整理与归档。此外，内容创作者在处理播客素材或访谈录音时，也能借助其高准确率的转录能力快速提取关键对话内容。另一个典型使用场景是法律、医疗等专业领域，这些场景中常涉及大量专业术语、机构名称或人名，普通语音识别系统容易出错。通过预先配置 vocab.txt 添加相关词汇，并结合 replacements.txt 设置固定替换规则，可以确保敏感信息被准确还原。例如，在转录客户电话记录时，系统能正确识别‘Clawdis’这样的内部代号；在医学转录中，则能精准捕捉‘myocardial infarction’等术语。这种高度可控的转录方式，使得 Voice Transcribe 不仅是一个简单的语音转换工具，更成为专业工作流程中的智能辅助组件。

概览

核心功能特点

适用场景

相关推荐

Guizang PPT Skill：AI 驱动的网页幻灯片生成工具

Anime Image Downloader (Safebooru, Download Only)

email-designer

Bible QA (OpenClaw Church)

VietQR

Filtrix Video Gen

biliup-skills

XReplyAI – Social Post Manager