persona-voice

使用AudioZen大模型与SenseAudio语音技术,以随机或自选角色生成简短中文语音回复。

安装

概览

persona-voice 是一个专为飞书(Lark)机器人设计的随机人格语音回复 Skill,旨在通过结合 AudioZen 大模型与 SenseAudio 语音技术,为聊天场景注入更富个性与情感的表达方式。该工具的核心理念是:在保持简洁高效的前提下,让机器人在回应用户时不仅转换音色,更能体现特定角色的性格特征与语言风格,从而实现‘角色化文本’与‘角色化语音’的统一。当前版本聚焦于中文短句生成,支持文字输入和语音输入两种交互模式,并统一使用飞书原生语音条进行回复,避免普通文件附件带来的体验割裂。配置方面仅需设置飞书应用凭证和 SenseAudio API 密钥,其余参数均使用默认值,极大降低了部署门槛。 该工具适用于需要增强人机对话温度与趣味性的场景,尤其适合客服、陪伴型助手或创意类机器人。无论是用户发送一条疲惫的文字,还是一段语音倾诉,persona-voice 都能根据预设的人格模板生成符合该角色语气的回复内容,并通过高质量的 TTS 合成语音,以飞书标准 OPUS 格式直接发送语音消息。整个过程由主脚本 `scripts/main.py` 统一管理,包含人格初始化、提示词生成、语音转写、文本合成及飞书推送等关键模块,结构清晰且易于扩展。 目前保留三种免费可用的人格与音色组合:可爱萌娃(child_0001_a/b)、儒雅道长(male_0004_a)和沙哑青年(male_0018_a),分别对应天真活泼、沉稳睿智与略带沧桑的声线风格。每种人格不仅拥有独特的音色,其生成的回复文本也会主动贴合该角色的表达习惯,例如萌娃会使用叠词撒娇,道长则可能引用古语劝慰。这种一致性设计确保了用户体验的真实感与沉浸感。

核心功能特点

  1. 基于 AudioZen 大模型生成角色化文本回复,确保内容与所选人格风格一致
  2. 集成 SenseAudio ASR 与 TTS 技术,支持语音输入转写与高质量中文语音合成
  3. 专用于飞书机器人,直接发送原生语音条而非文件附件,符合平台交互规范
  4. 仅配置飞书应用凭证和 SenseAudio API 密钥,其余参数全部使用默认值简化部署
  5. 提供三种免费人格与音色组合:可爱萌娃、儒雅道长、沙哑青年,覆盖多样情感表达需求

适用场景

persona-voice 最典型的应用场景是在企业内部的飞书群聊或私聊中部署智能客服或互动助手。当员工在工作群组中提出简单问题或表达情绪时,该工具可自动调用 ChatGPT 或 Claw 模型生成符合当前人格的简短回复,并以语音形式发送,使沟通更具亲和力。例如,若设定为‘儒雅道长’人格,系统可在员工抱怨加班疲惫时,用温和而富有哲理的语言安抚对方;若切换至‘可爱萌娃’模式,则能以俏皮可爱的语气活跃团队氛围,提升协作愉悦度。这种动态人格切换机制让同一机器人具备多面性,适应不同沟通情境。 另一个典型场景是个人助理类机器人,尤其是面向家庭或轻办公环境的应用。用户可通过语音向机器人倾诉日常琐事或寻求建议,persona-voice 不仅能准确识别语音内容,还能根据上下文选择合适的人格进行回应。比如深夜感到孤独时,听到‘沙哑青年’略带低沉但真诚的安慰,会比冷冰冰的文字更有温度。由于支持语音输入与输出闭环,整个交互过程自然流畅,无需额外操作即可完成从听到说的完整对话,显著提升了人机交互的自然度与效率。