在5月20日举行的Google I/O 2024开发者大会上,谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)正式宣布推出Gemini 3.5系列大语言模型,并同步发布了一款专为物理世界模拟设计的新型AI模型Gemini Omni。此举标志着谷歌在AI竞争日益激烈的市场中持续加码核心技术投入,旨在巩固其在大模型和智能体技术方面的领先地位。
Gemini 3.5系列:性能与效率双突破
此次发布的Gemini 3.5系列包含两个主要版本:Gemini 3.5 Flash 和 Gemini 3.5 Pro。其中,Flash作为轻量级版本,被定位为“速度极快”且性价比极高的解决方案。据皮查伊介绍,该模型在维持尖端AI能力的同时,其运行成本仅为市场上其他顶级模型的一半,甚至在某些情况下可低至三分之一。这一显著的成本优势使谷歌能够将其应用于更广泛的产品场景。
谷歌已宣布,Gemini 3.5 Flash将成为全球Gemini应用及搜索AI功能的默认模型。这意味着用户在使用Google搜索、Gmail、Docs等日常工具时将直接受益于其增强的理解与响应能力。公司强调,此举解决了以往用户不得不在响应速度与输出质量之间做出取舍的问题。
至于更强大的Gemini 3.5 Pro版本,目前仍处于内部测试阶段,预计将在下个月向更广泛的用户群体开放。该版本将面向需要更高推理能力和复杂任务处理的专业用户与企业客户。
Gemini Omni:迈向真实世界的AI模拟
除了语言模型的重大升级外,谷歌还推出了名为Gemini Omni的世界模型(World Model),专门用于模拟物理环境中的动态变化。这类模型在游戏开发与机器人控制领域已有广泛应用,而Omni则在准确性上实现了关键突破——它能精确模拟重力、流体动力学、动能传递等复杂物理现象。
Omni的核心亮点在于其视频生成与交互编辑能力。用户不仅可以由文本或图像生成高质量视频,还能在生成后对视频内容进行实时修改,例如改变动作轨迹、添加新角色或物体。谷歌DeepMind首席AI架构师Koray Kavukcuoglu表示:“这为学习和探索提供了类似教程的能力。”目前,Omni已集成于Gemini Flash、Google Flow、YouTube Shorts等多个平台,并支持图像与音频功能。
“拍摄一段视频,可以让Omni改变其中正在发生的内容。”
值得注意的是,高质量视频生成一直是AI领域的难点之一,尤其对算力资源要求极高。此前OpenAI曾暂停其视频生成项目Sora,部分原因正是为了集中资源发展其他核心业务。相比之下,谷歌通过优化模型结构与训练方式,在有限算力下实现了实用级视频编辑功能。
Gemini Spark:跨平台的智能代理新时代
另一项重要发布是Gemini Spark——一款新型通用AI智能体(Agent)。不同于传统聊天机器人,Spark具备跨平台信息整合与自主决策能力,能够理解用户在多个应用程序(如日历、邮件、地图等)中留下的线索,并代表用户执行操作,例如安排会议、预订行程或总结邮件要点。
Gemini Spark目前处于测试阶段,首批将向受信任的测试用户及Google AI Ultra订阅用户开放。皮查伊指出:“我们已经将智能体带给开发者和企业一段时间了。现在,我们专注于将这种前沿能力安全可靠地带给消费者,让每个人都能受益。”
此举也呼应了谷歌当前的战略方向:通过深度整合AI能力至搜索、办公套件等高频使用场景中,重塑用户对搜索引擎的认知。随着越来越多互联网用户转向聊天机器人获取信息,谷歌正试图证明其AI产品不仅能回答问题,更能主动帮助用户完成任务。
结语:AI生态的全面深化
总体来看,本次Google I/O大会展示了谷歌在AI领域的全方位布局——从底层模型优化到上层应用创新,涵盖自然语言处理、多模态生成与智能体自动化三大方向。面对OpenAI与Anthropic等公司日益增长的市场压力,谷歌正以Gemini 3.5为核心,加速推进产品落地与技术迭代,力求在全球AI竞赛中保持领先优势。

评论区