Faster Whisper

基于 faster-whisper 的本地语音转文字。准确率与 OpenAI Whisper 相同,速度快 4-6 倍;GPU 加速可实现约 20 倍实时转录。支持SRT...

安装

概览

Faster Whisper 是一款基于 faster-whisper 的本地语音转文字工具,能够以极高的效率将音频或视频文件转换为文本。它采用 CTranslate2 重新实现的 OpenAI Whisper 模型,在保持与原始 Whisper 完全一致准确率的同时,将转录速度提升4-6倍;若启用GPU加速,则可实现约20倍的实时转录性能(例如10分钟音频可在30秒内完成处理)。该工具支持广泛的输入格式,包括常见的音频文件(MP3、WAV、M4A等)以及YouTube链接和直接音频URL,自动通过 yt-dlp 下载网络资源。输出方面,它不仅能生成标准字幕格式(SRT、VTT、ASS、LRC、TTML),还支持JSON、CSV、HTML等多种结构化数据输出,满足从内容制作到数据分析的各种需求。

核心功能特点

  1. 准确率与OpenAI Whisper相同,速度快4-6倍,GPU加速下可达20倍实时转录
  2. 支持99+种语言的自动检测和多语言混合音频转录
  3. 提供SRT/VTT/HTML/CSV/TTML/ASS/LRC等多种输出格式,兼容字幕制作与数据分析
  4. 支持说话人分离(diarization)、关键词搜索、章节检测和段落识别
  5. 可批量处理文件、RSS播客订阅源,并支持URL输入和流式输出

适用场景

Faster Whisper 特别适合需要高效、高质量本地语音转文字的各类场景。对于会议记录、访谈录音、讲座讲座、播客等内容创作者而言,它能快速生成带时间戳的文本或字幕文件,极大提升后期编辑效率。视频制作者可直接输出SRT或TTML格式的广播级字幕,甚至一键烧录进原视频。企业用户可用于处理客户电话录音、培训材料或内部会议,结合说话人分离功能明确标注不同发言者,便于后续检索与归档。开发者还可将其集成到自动化流程中,通过API调用批量转录大量音频文件,并导出为CSV或JSON供进一步分析。由于其完全离线运行特性,也适用于对隐私敏感或网络受限的环境。