具有 Mac 风格 say 交互的 ElevenLabs 语音合成。

安装

概览

什么是Sag

Sag 是一款专为开发者打造的命令行语音合成工具,基于 ElevenLabs 的先进文本转语音(TTS)技术,提供本地播放与快速交互体验。它采用类似 macOS 中 `say` 命令的简洁语法,让用户能够以自然语言指令生成高质量、富有表现力的语音输出。通过集成 ElevenLabs 的多语言模型和丰富的情感标签系统,Sag 不仅支持基础文本朗读,还能通过音频标记精确控制语调、节奏和情绪表达,极大提升了语音合成的可玩性与实用性。无论是用于自动化脚本中的语音反馈,还是为聊天机器人添加拟人化回复,Sag 都能在终端环境中高效运行,无需依赖图形界面或复杂配置。其设计初衷是简化 TTS 调用流程,让开发者能快速将声音融入各类项目,同时保持对模型参数、发音规则和语音风格的精细掌控。

核心功能特点

  1. 支持 ElevenLabs 多版本模型(如 eleven_v3、eleven_flash_v2_5),兼顾音质与速度
  2. 提供丰富的音频标记(如 [whispers]、[excited]、[pause])实现情感化语音表达
  3. 兼容 SSML 部分标签及自定义停顿语法,灵活控制发音节奏
  4. 支持多语言自动归一化处理,并允许手动指定语言偏好
  5. 可通过环境变量或 CLI 参数设置 API 密钥与默认音色 ID
  6. 适用于聊天机器人、自动化通知、有声内容生成等场景的快速语音输出

适用场景

Sag 特别适合需要轻量级、可编程语音输出的开发者和创作者。例如,在构建 AI 助手或智能客服系统时,开发者可以使用 Sag 将文本响应转换为带有人声情感的音频文件,并通过 `MEDIA:` 标记嵌入到对话流中,显著提升用户体验的真实感。对于教育类应用或无障碍工具,Sag 能快速生成清晰、可调节语速的讲解内容,帮助视障用户获取信息。此外,在游戏开发或互动叙事项目中,利用 `[sings]`、`[shouts]` 等音频标签,可以轻松塑造角色个性,增强沉浸感。由于其完全基于命令行操作,Sag 也适合集成进 CI/CD 流程或后台服务中,实现静默环境下的语音日志播报或状态提醒。无论是个人项目还是团队协作,Sag 都以其低门槛和高灵活性成为现代开发工作流的理想补充。