全球多模态推理新标杆智谱视觉推理模型GLM-4.5V正式上线并开源

大家好，欢迎来到IT知识分享网。

本报记者梁傲男

8月11日晚间，北京智谱华章科技股份有限公司（以下简称“智谱”）推出全球100B级效果最佳的开源视觉推理模型GLM-4.5V（总参数106B，激活参数12B），并同步在魔搭社区与HuggingFace开源。

这是智谱在通向通用人工智能（AGI）道路上的又一探索性成果。

GLM-4.5V基于智谱新一代旗舰文本基座模型GLM-4.5-Air，延续GLM-4.1V-Thinking技术路线，在41个公开视觉多模态榜单中综合效果达到同级别开源模型SOTA性能，涵盖图像、视频、文档理解以及GUIAgent等常见任务。

智谱供图

在多模态榜单之外，智谱更重视模型在真实场景下的表现与可用性。GLM-4.5V通过高效混合训练，具备覆盖不同种视觉内容的处理能力，实现全场景视觉推理，包括：图像推理（场景理解、复杂多图分析、位置识别）、视频理解（长视频分镜分析、事件识别）、GUI任务（屏幕读取、图标识别、桌面操作辅助）、复杂图表与长文档解析（研报分析、信息提取）、Grounding能力（精准定位视觉元素）

同时，模型新增“思考模式”开关，用户可灵活选择快速响应或深度推理，平衡效率与效果。

在保持高精度的同时，GLM-4.5V兼顾推理速度与部署成本，为企业与开发者提供高性价比的多模态AI解决方案。API调用价格低至输入2元/Mtokens，输出6元/Mtokens。

在技术细节方面，GLM-4.5V由视觉编码器、MLP适配器和语言解码器三部分组成，支持64K多模态长上下文，支持图像与视频输入，并通过三维卷积提升视频处理效率。模型采用双三次插值机制，有效增强了模型对高分辨率及极端宽高比图像的处理能力与稳健性；同时，引入三维旋转位置编码（3D-RoPE），显著强化了模型对多模态信息的三维空间关系的感知与推理能力。

此外，GLM-4.5V采用三阶段策略：预训练、监督微调（SFT）和强化学习（RL）。其中，在预训练阶段，智谱结合大规模图文交错多模态语料和长上下文内容，强化了模型对复杂图文及视频的处理能力；在SFT阶段，智谱引入了显式“思维链”格式训练样本，增强了GLM-4.5V的因果推理与多模态理解能力；最后，RL阶段，智谱引入全领域多模态课程强化学习，通过构建多领域奖励系统（RewardSystem），结合可验证奖励强化学习（RLVR）与基于人类反馈的强化学习（RLHF），GLM-4.5V在STEM问题、多模态定位、Agent任务等方面获得全面优化。

多模态推理被视为通向通用人工智能的关键能力之一，让AI能够像人类一样综合感知、理解与决策。其中，视觉-语言模型（Vision-LanguageModel，VLM）是实现多模态推理的核心基础。

今年7月份，智谱发布并开源了全球10B级效果的VLM——GLM-4.1V-9B-Thinking。该模型以小博大，展现了小体积模型的极限性能潜力，上线后迅速登上HuggingFaceTrending榜首，并累计获得超过13万次下载。

（编辑张明富）

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://haidsoft.com/187746.html

全球多模态推理新标杆 智谱视觉推理模型GLM-4.5V正式上线并开源

相关推荐

发表回复

全球多模态推理新标杆智谱视觉推理模型GLM-4.5V正式上线并开源