Video Captions

生成专业字幕,支持多引擎转录、词级时间轴、样式预设和字幕烧入。

安装

概览

Video Captions 是一款专为视频内容创作者和制作团队设计的专业字幕生成工具,其核心能力在于将音频或视频文件自动转换为高精度、可定制化的字幕文件。该工具支持从本地离线转录到云端处理的多引擎选择,默认采用 Whisper 本地模型,确保用户数据完全保留在设备上,不经过任何网络传输,极大保障了隐私安全。它不仅能够输出通用兼容的 SRT 和 VTT 格式,还深度集成 FFmpeg 技术,可将字幕直接烧录进视频,实现 TikTok、Instagram 等社交平台所需的嵌入式字幕效果。同时,工具提供词级时间轴、说话人识别、多语言翻译等高级功能,满足 YouTube、Netflix 等专业平台对字幕格式、时长、字符限制等严苛标准的要求。无论是播客访谈、外语影片还是社交媒体短视频,Video Captions 都能通过灵活的参数配置和预设样式,快速产出符合各平台规范的字幕成品。

核心功能特点

  1. 支持 Whisper 本地及 MLX Whisper 等多种转录引擎,默认完全离线运行,保障数据隐私
  2. 提供词级时间戳功能,适用于卡拉 OK 高亮、动画字幕和精准同步校验场景
  3. 内置 Netflix 合规标准(每行最多42字符、2行以内、最小持续时间0.833秒),也适配 TikTok/Instagram 等社交平台的短句式排版需求
  4. 支持多说话人识别与 SDH 格式标注(如 [音乐]、[笑声]),适合访谈类内容处理
  5. 可通过 FFmpeg 将字幕烧入视频(burn-in),并自定义字体、颜色、描边、阴影和对齐方式,生成适用于不同平台的视觉风格
  6. 支持一键翻译为英文,也可输出 TTML、ASS 等高级格式,满足专业影视后期流程

适用场景

Video Captions 特别适合需要高效生成高质量字幕的各类视频制作场景。对于 YouTube 内容创作者而言,只需输入 MP4 或音频文件,即可自动生成 VTT 或 SRT 格式的字幕,上传至 YouTube Studio 后可直接使用,极大提升视频可访问性与 SEO 表现。若目标平台是 TikTok 或 Instagram Reels,则可利用词级时间轴结合 ASS 样式模板,生成带有动态强调效果的字幕,并通过烧录功能嵌入视频,无需额外编辑软件即可完成发布准备。在专业影视领域,如 Netflix 剧集或纪录片,该工具严格遵循其字幕规范:控制单行字数、段落数量及时长间隔,确保全球观众获得一致的观看体验;还可导出 TTML 格式供后期系统对接。此外,播客制作者可通过开启说话人分离功能,自动标记不同嘉宾对话,并以 `[SPEAKER]: 内容` 的形式呈现,便于听众追踪发言者。对于外语电影或跨国会议视频,用户可选择先转录原始语言再翻译为英文,或直接调用翻译任务,最终生成双语对照字幕,显著降低跨语言内容传播门槛。所有处理过程默认在本地完成,仅在明确启用云 API 密钥时才会上传数据,兼顾效率与安全性。