moss-transcribe-diarize

MOSS 多说话人转写技能。支持 URL / 本地文件 / Base64 音频输入,输出带时间戳与 speaker 的结构化转写结果(JSON、逐段文本、按说话人汇总)。用于会议纪要、访谈录音、多人对话整理。需要 API 凭证(环境变量:MOSS_API_KEY,兼容 MOSI_TTS_API_KEY / MOS...

安装

概览

什么是moss-transcribe-diarize

MOSS-Transcribe-Diarize 是一款专为多说话人语音场景设计的自动化转写工具,能够高效处理会议录音、访谈对话、多人讨论等复杂音频内容。它支持从多种输入源获取音频数据,包括远程 URL、本地音视频文件以及 Base64 编码的音频流,极大提升了使用灵活性。该工具通过调用统一的 API 接口,将原始音频转化为结构化的文本结果,不仅包含精确的逐句时间戳信息,还能自动识别并标注不同说话人(speaker),为后续的内容整理与分析提供坚实基础。其输出格式丰富,既可直接生成 JSON 格式的完整响应,也支持按说话人分组的汇总文本,满足不同应用场景下的阅读与归档需求。整个流程高度集成,用户只需一条命令即可完成从音频到结构化文本的全链路处理,显著降低人工干预成本。

核心功能特点

  1. 支持 URL、本地文件或 Base64 音频数据三种输入方式,适配多样化数据来源
  2. 自动进行说话人分离(diarization)与语音识别(ASR),输出带时间戳和 speaker 标签的结构化结果
  3. 提供 JSON、逐段文本及按说话人汇总等多种输出格式,便于后续处理与展示
  4. 统一环境变量管理 API 密钥(MOSS_API_KEY / MOSI_TTS_API_KEY / MOSI_API_KEY),简化配置流程
  5. 默认使用 moss-transcribe-diarize 模型,固定对接 https://studio.mosi.cn/v1/audio/transcriptions 接口

适用场景

MOSS-Transcribe-Diarize 特别适用于需要快速将多人对话转化为文字记录的各类专业场景。在商务会议中,它可以自动转录整场讨论内容,并按发言者分类整理,帮助会后快速生成带有责任归属的纪要文档;对于新闻采访或学术访谈,工具能清晰区分记者与被访者的发言段落,避免后期校对时混淆角色。此外,在线教育场景中,教师可将其用于录制小组讨论课,系统自动标记每位学生的发言片段,方便回放与复习。法律取证、客服质检等领域也可借助此工具实现大规模音频材料的标准化文本化处理。由于其对多说话人场景的高度优化,相比传统单说话人转写方案,在处理真实世界中的复杂对话时准确率更高、效率更优。