AI - News Reader

Home Category

Skywork R1V-昆仑万维开源的多模态视觉推理模型

By www.aihub.cn 9 0
Source: https://www.aihub.cn/news/skywork-r1v-model/

当前位置: 首页 > AI资讯 > Skywork R1V-昆仑万维开源的多模态视觉推理模型

2025年3月18日,昆仑万维正式开源了其首款多模态视觉思维链推理模型 Skywork R1V ,标志着多模态思考新时代的到来。Skywork R1V 是一款专注于通过多步逻辑推理解决复杂视觉任务的模型,能够处理视觉逻辑推理、数学问题、科学现象分析等多种任务。

核心技术亮点

文本推理能力的多模态高效迁移 :通过视觉投影器,无需重新训练语言模型和视觉编码器,即可将文本推理能力高效迁移到视觉任务中,同时保留了强大的文本推理能力。 多模态混合式训练 :结合迭代监督微调(Iterative SFT)和强化学习(GRPO),分阶段对齐视觉和文本模态的表征,显著提升跨模态任务的表现。 自适应长度思维链蒸馏 :动态优化模型推理过程,避免“过度思考”,提升推理效率和质量。

性能表现

Skywork R1V 在多个权威基准测试中表现出色,例如在 MATH500 和 AIME 测试中分别取得了 94.0 和 72.0 的高分,明显领先于行业内众多主流模型。在视觉推理基准测试中,如 MMNU 和 MathVista,分别取得了 69 和 67.5 的优异成绩,与更大规模的闭源模型相当。

开源信息

Skywork R1V 的模型权重和技术报告已全面开源,方便研究人员和开发者进行二次开发和应用探索。开源链接如下:

Hugging Face : https://huggingface.co/Skywork/Skywork-R1V-38B GitHub : https://github.com/SkyworkAI/Skywork-R1V 技术报告 : https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V.pdf

©版权声明: 如无特殊说明,本站所有内容均为 AIHub.cn 原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。

×

请输入验证码

请输入图片中的验证码

×

搜索一下可能来得更快

¥undefined

请打开手机使用 微信 扫码支付

「 」

....支付确认中....

「 」

积分支付

您当前的积分为 0

检测到您未绑定微信账户,请先绑定微信

立刻绑定

×

打开微信扫一扫

扫码并「关注我们的公众号」安全快捷登录

×

为了确保您的账户安全

登录用户名

请填写您的的登录用户名

验证码 发送验证码 密码

最少6位字符

®AI - News Reader