Faster Whisper 是一款基于 faster-whisper 的本地语音转文字工具，能够以极高的效率将音频或视频文件转换为文本。它采用 CTranslate2 重新实现的 OpenAI Whisper 模型，在保持与原始 Whisper 完全一致准确率的同时，将转录速度提升4-6倍；若启用GPU加速，则可实现约20倍的实时转录性能（例如10分钟音频可在30秒内完成处理）。该工具支持广泛的输入格式，包括常见的音频文件（MP3、WAV、M4A等）以及YouTube链接和直接音频URL，自动通过 yt-dlp 下载网络资源。输出方面，它不仅能生成标准字幕格式（SRT、VTT、ASS、LRC、TTML），还支持JSON、CSV、HTML等多种结构化数据输出，满足从内容制作到数据分析的各种需求。

核心功能特点

准确率与OpenAI Whisper相同，速度快4-6倍，GPU加速下可达20倍实时转录
支持99+种语言的自动检测和多语言混合音频转录
提供SRT/VTT/HTML/CSV/TTML/ASS/LRC等多种输出格式，兼容字幕制作与数据分析
支持说话人分离（diarization）、关键词搜索、章节检测和段落识别
可批量处理文件、RSS播客订阅源，并支持URL输入和流式输出

适用场景

Faster Whisper 特别适合需要高效、高质量本地语音转文字的各类场景。对于会议记录、访谈录音、讲座讲座、播客等内容创作者而言，它能快速生成带时间戳的文本或字幕文件，极大提升后期编辑效率。视频制作者可直接输出SRT或TTML格式的广播级字幕，甚至一键烧录进原视频。企业用户可用于处理客户电话录音、培训材料或内部会议，结合说话人分离功能明确标注不同发言者，便于后续检索与归档。开发者还可将其集成到自动化流程中，通过API调用批量转录大量音频文件，并导出为CSV或JSON供进一步分析。由于其完全离线运行特性，也适用于对隐私敏感或网络受限的环境。

概览

核心功能特点

适用场景

相关推荐

Guizang PPT Skill：AI 驱动的网页幻灯片生成工具

Anime Image Downloader (Safebooru, Download Only)

email-designer

Bible QA (OpenClaw Church)

VietQR

Filtrix Video Gen

biliup-skills

XReplyAI – Social Post Manager