谷歌发布 Gemini 3.5 实时语音翻译模型:支持 70+ 语言,保留说话者语调

gemini35 · 谷歌 暂无评论

谷歌推出 Gemini 3.5 Live Translate 实时语音翻译模型,支持超 70 种语言,可保留语调、语速与音高,已在谷歌翻译 iOS 和安卓版上线,开发者也可通过 API 调用。

谷歌人工智能团队近日正式发布 Gemini 3.5 Live Translate 实时语音翻译模型,面向跨语言对话场景提供更具自然感的实时翻译体验。该模型支持自动处理超过 70 种语言,并内置抗噪能力,可在复杂声学环境下保持稳定表现。

与传统的“先识别、再翻译、再合成”流程不同,Gemini 3.5 Live Translate 在模型层面将语音识别、翻译与语音生成进行一体化处理,能够在保留说话者语调、语速和音高的同时输出目标语言语音。这意味着翻译结果更接近真人对话的节奏与情绪,减少机械感。

面向普通用户:谷歌翻译已上线

目前,该功能已直接集成到 谷歌翻译 的 iOS 和 Android 应用中,用户无需额外下载或配置即可免费使用。在实际使用中,用户只需选择输入与输出语言,系统即可在对话过程中持续生成翻译语音,尽量缩短说话与翻译输出之间的间隔,避免对话中的尴尬停顿。

谷歌翻译在更新中强调,模型会在“上下文理解”与“即时翻译”之间取得平衡:既要利用上下文提升翻译准确性,又不能因过度等待上下文而引入明显延迟。这种折中设计,使得跨语言对话在保持流畅的同时,仍能获得更自然的语义表达。

面向开发者:通过 Gemini Live API 与 AI Studio 调用

除了面向普通用户的谷歌翻译,开发者也可以通过 Gemini Live APIGoogle AI Studio 调用 Gemini 3.5 Live Translate 能力,将实时语音翻译集成到自己的应用、客服系统、会议工具或教育产品中。

对于需要构建多语言交互场景的企业和开发者而言,这一 API 提供了将语音输入实时翻译为多语言语音输出的能力,适用于跨国会议、旅游助手、语言学习、无障碍服务等多种场景。

技术特点:保留说话者特征与抗噪能力

Gemini 3.5 Live Translate 的关键特性之一是“说话者特征保留”。传统语音翻译往往只关注语义准确,而忽略说话者的表达风格;新模型则尝试在翻译结果中保留以下特征:

  • 语调:尽量还原说话者的语气起伏与情绪表达;
  • 语速:根据原始说话节奏调整翻译输出的快慢;
  • 音高:在合成语音时保留说话者的音高特征,使声音更接近原说话者。

此外,模型还具备抗噪能力,能够在存在背景噪音的环境中保持相对稳定的识别与翻译表现,这对户外、公共场所或在线会议等现实场景尤为重要。

行业背景:实时语音翻译进入“更自然”阶段

近年来,语音翻译技术已经历了从“文本翻译”“语音转文字翻译”到“端到端语音翻译”的演进。早期的语音翻译往往延迟明显、语调单一,难以支撑自然对话。随着大模型与多模态技术的发展,谷歌、微软、Meta 以及多家中国厂商都在探索更自然的实时翻译方案。

Gemini 3.5 Live Translate 的发布,意味着实时语音翻译正在从“能听懂、能翻译”走向“更像真人说话”的阶段。对于普通用户而言,跨语言对话的门槛将进一步降低;对于开发者而言,基于此类模型构建的多语言应用也有望获得更自然的交互体验。

使用方式与获取渠道

目前,普通用户可通过以下方式体验 Gemini 3.5 Live Translate:

  1. 在 iOS 设备上使用 谷歌翻译 App;
  2. 在 Android 设备上使用 谷歌翻译 App;
  3. 在对话模式下选择输入与输出语言,开始实时语音翻译。

开发者则可通过以下渠道接入模型能力:

  • Gemini Live API:用于在应用中集成实时语音翻译能力;
  • Google AI Studio:用于快速测试、调试和验证模型效果。

随着该模型在谷歌翻译和开发者平台上的持续铺开,实时语音翻译有望成为跨语言沟通中更自然、更高效的日常工具。

评论区

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注