Audio Summary 是一款专为音视频内容处理设计的自动化工具，能够高效地将视频文件转化为结构化文本摘要。该工具的核心流程分为三步：首先利用 ffmpeg 从 MP4 等常见视频格式中提取音频流，并将其压缩为适合模型处理的 16kHz 单声道格式；接着调用百炼平台上的 qwen3-asr-flash 语音识别模型，将提取的音频精准转录为文字内容；最后基于转录结果自动生成逻辑清晰的分段式摘要。整个处理过程完全自动化，用户只需提供视频文件路径即可一键完成全部操作。生成的摘要文本会直接保存至原视频文件所在的目录中，并以‘视频名_summary.txt’的形式命名，极大地方便了后续查阅与管理。

核心功能特点

自动从 MP4 等格式视频中提取并压缩音频
基于 qwen3-asr-flash 模型实现高精度语音转文字
自动生成结构化分段摘要并支持长视频分块处理

适用场景

Audio Summary 特别适合需要快速获取视频核心内容的场景。对于在线教育领域，教师或学生可以将讲座、课程录像转换为便于复习的文本摘要，显著提升学习效率。在会议记录场景中，企业用户可将线下或线上会议视频快速转为可搜索的文字纪要，方便归档与检索。此外，内容创作者也能借此工具批量处理采访录音或播客片段，生成易于传播的文字稿本。尽管单次处理上限约为 5-8 分钟，但通过简单的视频切分，该工具同样适用于更长时长的内容分析，是信息密集型工作中不可或缺的效率助手。

概览

核心功能特点

适用场景

相关推荐

Guizang PPT Skill：AI 驱动的网页幻灯片生成工具

Anime Image Downloader (Safebooru, Download Only)

email-designer

Bible QA (OpenClaw Church)

VietQR

Filtrix Video Gen

biliup-skills

XReplyAI – Social Post Manager