李飞飞团队新作，爆火的DeepSeek，为什么都选择 Qwen 作为基座模型？ | 爱范儿

媒体品牌

爱范儿

关注明日产品的数字潮牌

APPSO

先进工具，先知先行，AIGC 的灵感指南

董车会

造车新时代，明日出行家

玩物志

探索城市新生活方式，做你的明日生活指南
知晓云
制糖工厂

扫描小程序码，了解更多

热门搜索

为您查询到篇文章

2月07日，星期五

02-07 10:30

李飞飞团队新作，爆火的DeepSeek，为什么都选择 Qwen 作为基座模型？

近日，李飞飞团队提出了一种模型训练新方法引发热议，他们以阿里通义千问Qwen2.5-32B-Instruct开源模型为底座，在16 块 H100 GPU上监督微调26 分钟，训练出新模型 s1-32B，取得了与OpenAI的o1和DeepSeek的R1等尖端推理模型数学及编码能力相当的效果，甚至在竞赛数学问题上的表现比 o1-preview 高出 27%。

更早之前，DeepSeek官方曾透露，将DeepSeek-R1的推理能力蒸馏 6 个模型开源给社区，其中4个模型来自Qwen：基于Qwen-32B蒸馏的模型，在多项能力上实现了对标 OpenAI o1-mini 的效果。

一时间，在开源社区备受追捧的通义千问Qwen模型，因这一轮推理模型技术新浪潮而浮出水面：Qwen模型性能强劲，开源尺寸多样化，并且拥有全球最大的衍生模型群，已经取代Llama成为开源社区事实上最重要的标杆基座模型。

据了解，从2023年8月起，阿里云通义千问相继开源Qwen、Qwen1.5、Qwen2、Qwen2.5等4代模型，囊括大语言模型、多模态模型、数学模型和代码模型等数十款，数次登上HuggingFace的Open LLM Leaderboard、Chatbot Arena大模型盲测榜单、司南OpenCompass等多个国内外权威大模型榜单，性能全球领先，屡次斩获「全球开源冠军」。

公认强劲的性能，让开源Qwen模型成为最受技术前沿探索欢迎的最基础模型。有专家指出，不论是微调、蒸馏或是其他低成本的新技术，都是站在Qwen等基础模型强大性能表现的“肩膀上”，才取得的新技术成果，Qwen也成为开源推动前沿技术发展的又一经典案例。

阿里云Qwen模型是业界率先实现“全尺寸、全模态、多场景”的开源。从1.5B到72B乃至110B，Qwen开源的模型尺寸及版本覆盖面最广，给开发者和企业更多的选择。在全球最知名的开源社区HuggingFace数据统计中，2024年，仅Qwen2.5-1.5B-Instruct这款模型，就占到了全球模型下载量的26.6%，远高于第二名Llama-3.1-8B-Instruct-GGUF的6.44%；仅视觉理解Qwen-VL及Qwen2-VL两款模型，全球下载量就突破3200万次，一周前，Qwen2.5-VL全新升级，又引发新一轮开源社区狂热。

目前，海内外开源社区中Qwen的衍生模型数量已突破9万，超越Llama系列衍生模型，通义千问Qwen成长为世界最大的生成式语言模型族群。全球AI模型开发者都用Qwen，也可以更好地进行不同技术的差异化比较，从而进一步推动了Qwen的火热，让Qwen成为开源社区事实上最重要的标杆基座模型。

参考资料：
1、李飞飞团队s1论文
论文公开地址：https://arxiv.org/abs/2501.19393

[展开]

加载更多

粤ICP备18066688号-2 粤公网安备44010602006618号

版权所有 © 广州利沃致远投资管理合伙企业（有限合伙） 2008 - 2023。以商业目的使用爱范儿网站内容需获许可。非商业目的使用授权遵循 CC BY-NC 4.0。

All content is made available under the CC BY-NC 4.0 for non-commercial use. Commercial use of this content is prohibited without explicit permission.

Designed by

if Design Studio.

爱范儿 App

爱范儿,让未来触手可及

爱范儿

AppSo

玩物志

知晓云

知晓程序

Ifanr QR Code

关注爱范儿微信号，连接热爱，关注这个时代最好的产品。

AppSo QR Code

想让你的手机好用到哭？关注这个号就够了。

CoolBuy QR Code

关注玩物志微信号，就是让你乱花钱。

CoolBuy QR Code

小程序开发快人一步。

CoolBuy QR Code

最好的微信新商业服务平台。