• 媒体品牌
    爱范儿
    关注明日产品的数字潮牌
    APPSO
    先进工具,先知先行,AIGC 的灵感指南
    董车会
    造车新时代,明日出行家
    玩物志
    探索城市新生活方式,做你的明日生活指南
  • 知晓云
  • 制糖工厂
    扫描小程序码,了解更多

实测文心 4.5T/X1 双 Turbo 模型,百度「砍一刀」把 DeepSeek 也卷飞了

公司

8 小时前

DeepSeek 推崇的开源策略,不仅对「AI 六小龙」造成了不小冲击,也让百度等老牌巨头感受到了实实在在的压力。

但转身的百度,正逐渐展现出强劲的反击姿态。

继宣布「文心大模型 4.5 系列」将于 6 月 30 日正式开源后,已经发布多款新品的百度,今天在面向开发者的 Create 大会重磅推出两款全新模型:文心 4.5 Turbo 和深度思考模型 X1 Turbo。

既然冠以 Turbo 之名,那这两款模型能力自然在性能上全面进阶,主打多模态、强推理和低成本。百度旗下新搜索智能助手文小言也宣布全面接入,免费向用户开放,即日起用户打开文小言 APP 即可使用。

会上,百度创始人李彦宏明确指出:「多模态将成为未来基础模型的标配,纯文本模型的市场会越变越小,多模态模型的市场会越来越大」。

「当然 DeepSeek 也不是万能的。比如它只能处理文本,还不能理解和生成图片、音频、视频等多媒体内容,」李彦宏认为「它更大的问题是慢和贵,中国市场上绝大多数的大模型 API调用价格都比 DeepSeek 满血版要低,速度要更快。」

在他看来,今天隆重发布的文心大模型的 4.5 Turbo 和 X1 Turbo 正是要解决这些问题。

基于这一判断,文心大模型 4.5 Turbo 进一步强化了多模态能力。在多个基准测试集中,文心 4.5 Turbo 多模态能力已与 GPT-4.1 持平,甚至在部分维度优于 GPT-4o。

▲文心4.5 Turbo-多模态

▲文心4.5 Turbo-文本

我们不妨测试一下文心 4.5 Turbo 的逻辑推理能力,看看它如何解答这样一个经典问题:

「烧一根不均匀的绳要用一个小时,如何用它来判断半个小时?烧一根不均匀的绳,从头烧到尾总共需要1个小时。现在有若干条材质相同的绳子,问如何用烧绳的方法来计时一个小时十五分钟呢?」

创作方面,文心 4.5 Turbo 靠谱吗?我们也让其创作一份孙悟空和东海龙王结拜的短剧剧本。

结果,交出的剧本不仅尊重原著核心,也注入了新的解读。其中定海神针的拟人化是亮点,血盟仪式的设计也添加了新的维度。

而文心大模型 X1 Turbo 则在 4.5 Turbo 的基础上进行了「深度思考」升级,性能显著提升,内置更完整的思维链系统。

无论是问答能力、内容创作、逻辑推理,还是工具调用、多模态处理,X1 Turbo 均实现全方位增强,整体表现领先于 DeepSeek R1 和最新版本 V3。

上个月,我们实测了文心大模型 4.5 以及深度思考模型 X1 理解梗图的能力,那新模型的表现如何?答案是,多模态理解能力确实更强了。

拿这张梗图为例,相较于上一次,X1 Turbo 的理解更到位,回答也更具条理性,充分认识到这张万能表情包背后的「友好善意」。

比如,上传一张文物照片,让 X1 Turbo 进行讲解分析。它不仅能准确识别文物身份,还能详细剖析其工艺特点,讲解内容之细致,堪比专业博物馆讲解员。

亦或者,尝试让其生成一张空中飞机视角的图像,画面随即生成,几近真实。

▲Prompt:一个人的手指向飞机窗外,窗外的飞机机翼从侧面可见。外面的天空清晰,天际线显示出黎明或黄昏的景象。眼前是广阔的海洋

而在大家最关心的成本方面,而百度此次也打出价格组合拳。

文心大模型 4.5 Turbo 每百万 token 的输入价格仅为 0.8元,输出价格 3.2元,相比前代 4.5 降幅达 80%,只相当于 DeepSeek V3 的 40%。

而文心大模型 X1 Turbo 每百万 token 输入价格为 1 元,输出为 4 元,同样在性能提升的同时价格腰斩,仅为 DeepSeek R1 的 25%。

当天的 One More Thing 环节,百度正式点亮了国内首个全自研的三万卡集群,可同时承载多个千亿参数大模型的全量训练,支持 1000 个客户同时做百亿参数的大模型精调,强大技术底座硬实力的背后,也意味着百度再次向行业释放出最鲜明的信号。

此外,李彦宏在会上表示,当前开发者做 AI 应用的一大阻碍,就是大模型成本高、用不起。成本降低后,开发者和创业者们才可以放心大胆地做开发,企业才能够低成本地部署大模型,最终推动各行各业应用的爆发。

不再将模型能力视作壁垒,而是回归到一个产品、一个平台应有的「性价比」逻辑上来。与其说是在卷价格,不如说是用效率降低门槛、通过开放构建生态。

登录,参与讨论前请先登录

评论在审核通过后将对所有人可见

正在加载中