MLX STT

基于MLX(Apple Silicon)与开源模型(默认GLM-ASR-Nano-2512)的本地语音转文本。

安装

概览

什么是MLX STT

MLX STT 是一款专为 Apple Silicon(苹果自研芯片)优化的本地语音转文本工具,基于 MLX 框架与开源 ASR(自动语音识别)模型构建。它无需联网、无需 API 密钥或远程服务器,即可在 macOS 设备上实现高精度语音转录,特别适合注重隐私和离线使用的开发者与研究人员。该工具默认集成 GLM-ASR-Nano-2512 模型,兼顾速度与准确性,能够在本地高效处理音频文件并输出文字稿。由于完全运行于设备端,用户数据不会离开本机,极大提升了安全性和可控制性。此外,MLX STT 支持多种常见音频格式,并通过自动化脚本简化了依赖安装和环境配置流程,降低了使用门槛。无论是进行会议记录、访谈整理,还是开发本地化语音应用,MLX STT 都提供了一种轻量且高效的解决方案。

核心功能特点

  1. 基于 Apple Silicon 原生优化,充分利用硬件加速提升推理效率
  2. 默认集成 GLM-ASR-Nano-2512 开源模型,支持高准确率本地语音识别
  3. 完全离线运行,不依赖网络或外部 API,保障数据隐私与安全
  4. 支持主流音频格式输入,自动调用 ffmpeg 进行格式转换
  5. 一键式安装与使用脚本,简化环境部署和依赖管理

适用场景

MLX STT 尤其适合需要在无网络环境下完成语音转录的场景。例如,科研人员在野外采集访谈录音后,可在回到实验室前先行本地转写;记者或内容创作者在采访过程中若担心云端上传延迟或敏感信息泄露,可通过此工具即时生成文字稿。对于开发者而言,若正在构建面向特定语言或口音的自定义语音应用,MLX STT 提供了一个可直接集成或作为基准测试的本地模型参考。此外,教育机构中的教师或学生在进行语言学习时,也可利用其快速将课堂录音转化为文本,便于复习与笔记整理。由于其轻量级设计和对 Apple Silicon 的深度适配,MLX STT 在 MacBook 或 Mac mini 等设备上表现尤为出色,成为追求性能与隐私平衡用户的理想选择。