10B级模型SOTA超8倍参数「大」模型智谱开源GLM-41V-Thinking
GLM-4.1V-9B-Thinking 通过引入「思维链」(Chain-of-Thought)推理机制,在回答准确性、内容丰富度与可解释性方面,全面超越传统的非推理式视觉模型,在28项评测任务中有23项达到10B级别模型最佳,18项任务持平甚至超过8倍参数量的Qwen-2.5-VL-72B。
GLM-4.1V-9B-Thinking 通过有效的混合训练融合了丰富的多模态模型能力,包括但不限于:
Prompt:请构建一个与输入图片相似的网页并将其转换为 React 代码。
纸巾是多孔材料,其纤维之间的缝隙类似于“毛细管”。当左右两个装有不同颜色液体的杯子与中间的空杯之间用纸巾连接时,纸巾会利用自身吸水性和纤维间的毛细作用,将左侧红色液体和右侧蓝色液体通过纤维间隙输送至中间的空杯中。随着这种输送过程的进行,中间的空杯逐渐被液体填满,从而出现了“中间水杯有水”的现象。
我们选用 AIMv2-Huge 作为视觉编码器,GLM 作为语言解码器。在视觉编码器部分,我们将原始的二维卷积替换为三维卷积,从而实现对视频输入在时间维度上的下采样,有效提升了处理效率。对于静态图像输入,则通过复制帧的方式以保持输入格式的一致性。
为进一步增强模型对任意图像分辨率和宽高比的适应能力,我们引入了两项关键改进。
其一,融合二维旋转位置编码(2D-RoPE),使模型能够稳定处理极端宽高比(如超过200:1)和超高分辨率(如4K以上)的图像;
其二,为保留ViT预训练模型的原有能力,我们保留了其可学习的绝对位置嵌入,并通过双三次插值方式在训练过程中动态适配不同分辨率输入。
在语言解码器中,我们对原始的旋转位置编码(RoPE)进行了三维扩展(3D-RoPE)。这一设计显著增强了模型在多模态输入处理中的空间理解能力,同时保持了其在文本生成方面的原始性能。
初始阶段旨在构建模型的通用多模态理解能力。我们使用两路张量并行策略,对所有参数进行了 120,000 步训练,序列长度为 8,192,全局批量大小为 1,536。训练数据涵盖图像字幕、交错图文、OCR、Grounding、指令响应等多种模态。为提高训练效率,我们采用样本拼接的数据打包策略,将可变长度样本压缩成接近最大长度的序列,充分利用显存资源。
为增强模型对高分辨率图像、视频序列及超长文本的处理能力,我们引入了更复杂的训练数据,包括视频帧序列和长度超过 8K tokens 的图文混合内容。该阶段将序列长度扩展至 32,768,采用混合并行策略(2路张量并行 + 4路上下文并行),并继续训练 10,000 步,保持全局批量大小为 1,536。
在微调阶段,我们特别构建了一个高质量的 CoT(思维链)训练集,用于强化模型的长篇因果推理能力。训练样本统一采用以下格式:
微调使用全参数训练,序列长度为 32,768,批量大小为 32。训练语料来自多个任务场景,包括数学题解、多轮对话、代理规划与复杂指令跟随,涵盖图文、多模态及纯文本等不同类型。这一阶段不仅提高了多模态推理能力,也保持了模型在语言理解与逻辑推演方面的稳定表现。
我们结合两种方法:基于可验证奖励的强化学习(RLVR)和基于人类反馈的强化学习(RLHF),覆盖多个关键任务维度:
通过课程采样,在这些任务上开展由易而难的动态大规模强化学习训练,模型在实用性、准确性和稳健性等方面取得了显著提升。