谷歌发布 Gemini 3.5 实时语音翻译模型：支持 70+ 语言，保留说话者语调

谷歌人工智能团队近日正式发布 Gemini 3.5 Live Translate 实时语音翻译模型，面向跨语言对话场景提供更具自然感的实时翻译体验。该模型支持自动处理超过 70 种语言，并内置抗噪能力，可在复杂声学环境下保持稳定表现。

与传统的“先识别、再翻译、再合成”流程不同，Gemini 3.5 Live Translate 在模型层面将语音识别、翻译与语音生成进行一体化处理，能够在保留说话者语调、语速和音高的同时输出目标语言语音。这意味着翻译结果更接近真人对话的节奏与情绪，减少机械感。

面向普通用户：谷歌翻译已上线

目前，该功能已直接集成到 谷歌翻译 的 iOS 和 Android 应用中，用户无需额外下载或配置即可免费使用。在实际使用中，用户只需选择输入与输出语言，系统即可在对话过程中持续生成翻译语音，尽量缩短说话与翻译输出之间的间隔，避免对话中的尴尬停顿。

谷歌翻译在更新中强调，模型会在“上下文理解”与“即时翻译”之间取得平衡：既要利用上下文提升翻译准确性，又不能因过度等待上下文而引入明显延迟。这种折中设计，使得跨语言对话在保持流畅的同时，仍能获得更自然的语义表达。

除了面向普通用户的谷歌翻译，开发者也可以通过 Gemini Live API 和 Google AI Studio 调用 Gemini 3.5 Live Translate 能力，将实时语音翻译集成到自己的应用、客服系统、会议工具或教育产品中。

对于需要构建多语言交互场景的企业和开发者而言，这一 API 提供了将语音输入实时翻译为多语言语音输出的能力，适用于跨国会议、旅游助手、语言学习、无障碍服务等多种场景。

Gemini 3.5 Live Translate 的关键特性之一是“说话者特征保留”。传统语音翻译往往只关注语义准确，而忽略说话者的表达风格；新模型则尝试在翻译结果中保留以下特征：

此外，模型还具备抗噪能力，能够在存在背景噪音的环境中保持相对稳定的识别与翻译表现，这对户外、公共场所或在线会议等现实场景尤为重要。

近年来，语音翻译技术已经历了从“文本翻译”“语音转文字翻译”到“端到端语音翻译”的演进。早期的语音翻译往往延迟明显、语调单一，难以支撑自然对话。随着大模型与多模态技术的发展，谷歌、微软、Meta 以及多家中国厂商都在探索更自然的实时翻译方案。

Gemini 3.5 Live Translate 的发布，意味着实时语音翻译正在从“能听懂、能翻译”走向“更像真人说话”的阶段。对于普通用户而言，跨语言对话的门槛将进一步降低；对于开发者而言，基于此类模型构建的多语言应用也有望获得更自然的交互体验。

目前，普通用户可通过以下方式体验 Gemini 3.5 Live Translate：

开发者则可通过以下渠道接入模型能力：

随着该模型在谷歌翻译和开发者平台上的持续铺开，实时语音翻译有望成为跨语言沟通中更自然、更高效的日常工具。