Asr Claw

面向AI智能体自动化的语音识别CLI,支持从标准输入、文件或URL转录音频。

安装

概览

什么是Asr Claw

Asr Claw 是一款专为 AI 智能体自动化设计的语音识别命令行工具,核心功能是将音频流实时或离线转换为文本。它支持从标准输入、本地文件或远程 URL 读取音频内容,并通过多种 ASR(自动语音识别)引擎进行转录,包括本地部署的轻量级模型和云端 API 服务。该工具深度集成于 Claude Plugin 生态,可作为会话钩子自动构建和分发,极大简化了开发者在自动化流程中处理语音数据的复杂度。无论是会议录音、直播流还是移动设备捕获的音频,Asr Claw 都能高效完成从声音到文字的转化任务。其设计兼顾灵活性与易用性,既适合技术用户通过 CLI 直接调用,也便于嵌入自动化脚本或工作流中。 Asr Claw 的一大亮点在于对多引擎架构的支持。用户可以选择本地高性能模型如 Qwen3-ASR,在设备端实现低延迟识别;也可接入 OpenAI Whisper、火山引擎 Doubao 或 Deepgram 等云端服务,利用其强大的泛化能力处理复杂口音或多语言场景。此外,工具原生支持流式处理模式,能够对接 adb-claw 等音频采集工具,实现对 Android 设备麦克风输入的实时转写,非常适合需要即时字幕生成或语音监控的应用场景。输出格式方面,Asr Claw 提供 JSON、纯文本、SRT 和 VTT 等多种选项,方便后续编辑或集成到其他系统中。

核心功能特点

  1. 支持 stdin、文件及 URL 多种音频输入源
  2. 集成本地与云端 ASR 引擎,包括 Qwen3-ASR、Whisper、OpenAI 等
  3. 原生流式处理能力,支持实时语音转文字
  4. 可生成 SRT/VTT 字幕文件,适用于视频制作
  5. 与 adb-claw 无缝协作,实现 Android 设备音频捕获与同步转写
  6. 配置灵活,支持自定义模型路径、采样率及分块策略

适用场景

Asr Claw 特别适用于需要自动化处理语音内容的开发者与智能体系统。例如,在构建会议记录助手时,可将参会者的语音通过 adb-claw 录制后立即管道传输至 Asr Claw,自动生成结构化文本摘要或会议纪要。对于在线教育平台而言,教师讲课音频可被实时转为字幕并嵌入课件,提升无障碍访问体验。直播场景中,Asr Claw 能持续监听直播间语音流,输出时间戳对齐的文字记录,用于舆情分析或内容存档。此外,研究人员在进行田野调查或访谈转录时,也能借助该工具快速将方言或嘈杂环境下的语音材料转化为可分析文本。由于其命令行接口简洁且输出标准化,它也常被集成进 CI/CD 流水线或批处理脚本中,实现无人值守的大规模音频转写任务。无论是个人项目还是企业级应用,Asr Claw 都提供了可靠、可扩展的语音理解解决方案。