智谱AI发布开源轻量级视觉推理模型GLM-4.1V-Thinking

AI开源 · 智谱 暂无评论

今天上午,在上海浦东的智谱开放平台产业生态大会上。中国的AI公司中,被OpenAI视为最大威胁的北京智谱华章公司发布了新的开源轻量级视觉推理模型GLM-4.1V-Thinking。类似阿里的QvQ模型。

官网宣称:

GLM-4.1V-Thinking系列模型是目前已知10B级别的VLM模型中性能最强的视觉模型,融合了同级别SOTA的各项视觉语言任务,包括视频理解、图片问答、学科解题、OCR文字识别、文档和图表解读、GUI Agent、前端网页Coding、Grounding等,多项任务能力甚至超过8倍参数量的Qwen2.5-VL-72B。通过领先的强化学习技术,模型掌握了通过思维链推理的方式提升回答的准确性和丰富度,从最终效果和可解释性等维度都显著超过传统的非thinking模型。

智谱AI于2025年7月2日开源的轻量级视觉推理模型GLM-4.1V-Thinking(参数规模约90亿),是当前多模态AI领域的一次重要突破。其核心价值和技术创新可从以下维度综合评价:

一、技术突破:从“感知”到“推理”的跨越
  1. 思维链推理机制(Chain-of-Thought)​
    模型在输出答案前首先生成逐步推理过程(如<thinking>{推理步骤}</thinking>),显著提升复杂任务的准确性、可解释性与逻辑严谨性。这一机制使其在STEM解题(数学、物理等)、文档分析等需多步推导的任务中表现卓越。
  2. 课程采样强化学习(RLCS)​
    结合强化学习与课程学习思想,分阶段由易到难训练模型:
    • 初级任务​:基础图文匹配、OCR识别;
    • 进阶任务​:视频时序分析、GUI交互、跨模态逻辑推演。
      该策略大幅提升模型在动态场景(如长视频解析)中的稳健性和泛化能力。
  3. 架构创新适配多模态极限场景
    • 视觉编码器​:基于AIMv2-Huge,将2D卷积扩展为3D卷积,高效处理视频帧序列(静态图像通过复制帧适配);
    • 位置编码优化​:融合2D旋转位置编码(2D-RoPE),支持极端宽高比(>200:1)和4K超清图像;
    • 长上下文支持​:序列长度扩展至64K,可解析长达两小时的视频内容。
二、性能表现:轻量级模型的“降维打击”​

在28项权威评测中(涵盖MMMU-Pro、ChartQAPro、OSWorld等),GLM-4.1V-Thinking实现:

  • 23项任务达到10B级模型最佳性能
  • 18项任务持平或超越72B参数模型Qwen-2.5-VL-72B
    例如在视频事件逻辑分析、跨学科图文解题等需高阶认知的任务中,其推理能力接近人类专家水平,验证了“小模型强认知”路线的可行性。
三、应用场景:覆盖千行百业的通用能力

模型通过混合训练融合八大核心功能,突破传统视觉模型局限:

能力方向典型场景
视频理解两小时长视频的事件逻辑分析(如体育赛事解说)
学科解题数学/物理/化学题目的多步骤图文推导
GUI交互识别手机/网页界面元素,执行点击、滑动等指令
代码生成输入设计图自动生成前端代码(“看图写网页”)
文档解读金融报告、政务文件的关键信息抽取与问答
四、开源生态:降低技术门槛的普惠实践
  1. 开发者友好性
    • 开源社区覆盖Hugging Face、ModelScope、GitHub;
    • 支持单张3090显卡部署,提供免费商用授权,极大降低中小企业应用成本。
  2. 工具链完善
    • 提供微调框架(ms-swift),支持LoRA等轻量化训练;
    • 开放API接口及在线Demo,便于快速集成测试。
五、行业影响:推动多模态AI的认知革命
  1. 技术路线验证​:证明轻量模型通过结构优化(如RLCS训练策略)可超越参数规模优势,为高效AGI研发提供新范式。
  2. 产业赋能加速​:结合智谱同期发布的Agent平台与10亿战略投资(浦东创投、张江集团),将推动教育、工业、金融等场景的AI Agent落地。
总结:​​“小而强”多模态模型的里程碑

GLM-4.1V-Thinking通过思维链推理课程强化学习的协同创新,实现了轻量化模型在复杂认知任务上的性能跃迁。其开源策略不仅降低了多模态AI的应用门槛,更推动了行业从“感知智能”向“因果推理”的范式升级。未来若能在长视频时序建模、低资源设备适配等方面持续优化,有望成为通用视觉推理的基座级模型。

该模型的 huggingface开源地址

在线体验地址

(注意: GLM-4.1V-Thinking-Flash模型的调用官网宣称是完全免费的。不过在线体验地址目前的思维链长度似乎有限制,在达到一定长度后会截断。)

发表评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注