• 媒体品牌
    爱范儿
    关注明日产品的数字潮牌
    APPSO
    先进工具,先知先行,AIGC 的灵感指南
    董车会
    造车新时代,明日出行家
    玩物志
    探索城市新生活方式,做你的明日生活指南
  • 知晓云
  • 制糖工厂
    扫描小程序码,了解更多

最低调的「AI 六小龙」阶跃星辰,在 DeepSeek 浪潮中交出了一份新答卷

公司

16 小时前

DeepSeek 掀起的浪潮还没结束 ,不只是 OpenAI ,中国的「 AI 六小龙」都要面临拷问:Scaling Law 是否还能持续,开源还是闭源,AI 落地的路线是否还行得通。

今天,AI 六小龙中一直比较低调的阶跃星辰,率先交出今年的第一份答卷。

在首届 Step UP生态开放日,阶跃星辰公布了自己探索 AGI 的方式,开启多模态推理的技术研究,并将 AI 落地的重点押注在智能终端,重点布局汽车、手机、具身智能、IoT 等应用场景。

阶跃星辰创始人、CEO 姜大昕认为,智能终端将成为 Agent (智能体)技术大规模应用的关键载体。

们朝着实现 AGI 的目标稳步前进,目前已进入 Agent(智能体)的发展阶段。

他指出智能体的发展依赖于两大关键要素:

一是多模态能力,让智能体充分地感知和理解世界;

二是推理能力,使智能体能够进行长思维链的慢思考,主动规划、尝试、反思,通过不断纠错提供准确的答案。

多模态让智能体像人一样「看、听、懂」,相当于人的「感官系统」,而推理能力就是处理信息的「大脑皮层」。

二者结合就能让 AI 《红楼梦》里的王熙凤,一双丹凤三角眼,不仅能察言观色,还能从一句话、一个动作中读出对方的深意。

多模态也是阶跃星辰在六小龙中最大的特点,目前阶跃 Step 系列模型矩阵已经发布了 11 款多模态大模型,覆盖语音识别、语音生成、多模态理解、图像及视频生成的全面能力。

前几天阶跃星辰还开源了Step-Video-T2V 视频生成模型和 Step-Audio 语音模型,成为六小龙最快拥抱开源的其中一位,但和 DeepSeek 不同的是,阶跃星辰开源的模型均为多模态,而这也是 DeepSeek 还没展现的能力。

去年 APPSO 就曾用阶跃星辰旗下的跃问应用,让还不支持的苹果 AI 的国行 iPhone 16 ,获得类似官方视觉智能的能力,按下拍摄按钮,拍照问就能轻松打开,看到任何需要咨询的东西,基本都能找到答案。

至于推理能力,阶跃星辰今天还宣布了和清华大学共同研发的开源推理模型 Open-Reasoner-Zero,首次从预训练模型开始就大规模强化学习,效率达到 DeepSeek-R1-Zero 的 25倍。

姜大昕在现场还预告了内部正在研发的视觉推理模型,其实这样揭示了阶跃星辰推动 AI 落地的技术逻辑:将多模态能力和推理能力结合,让智能终端成为 Agent 的载体。

目前,阶跃星辰的模型能力在智能终端主要有以下这些场景。

  • 汽车场景:与吉利合作开发的智能座舱Agent,通过多模态交互(语音+视觉)实现「可见即可说」,例如用户说「导航到最近的充电站」,Agent自动调用地图、查询充电桩状态并规划路线。
  • 手机场景:与 OPPO 共建的「一键问屏」功能,用户拍照或截图后,Agent 能直接解析图片内容(如商品、文档)并调用 API 完成搜索或翻译,无需手动切换 App。
  • IoT场景:与 TCL 等厂商合作,通过设备间联动实现主动服务,实现设备间的智能化升级和体验的无缝连接。
  • 具身智能,:促进 Agent 在具身领域的创新应用。阶跃星辰宣布与智元机器人战略合作,共同探索 AI+具身机器人应用场景。

AI 智能终端是一个既性感又饱受争议的概念,可能会让很多硬件通过 AI 提升用户的体验,最近不少手机纷纷都宣布接入 DeepSek,同时去年爆火的 AI 硬件 Ai Pin,下个月就将停止所有的 AI 服务、消息推送等联网功能。

目前大多数手机接入的 DeepSeek,都是给语音助手加一个插件式外挂,同时由于 DeepSeek 尚不支持多模态能力,使用场景受到的限制就比较多。最近网上流行的「DeepSeek+xx」的组合玩法,其实就是为了弥补其缺乏的能力。

去年率先喊出 AI 手机的 OPPO,就在 AI 终端融合走得更远。

比如使用小布助手App「一键问屏」,用户通过多模态视觉跟 AI 交互,实现拍照问答、文档问答,识屏问答等多种功能。

用户甚至可以给小布下达指令让它进入各种应用端完成任务,比如进入淘宝、京东搜索同款商品,在小红书、同花顺、携程等平台搜索信息和服务,在飞书、钉钉、企业微信等社交软件搜索聊天记录等,实现一键全能搜。

这些功能OPPO 基于阶跃星辰 Step 系列多模态模型共同开发的,OPPO 智能助理部部长、小布助手负责人万玉龙告诉我们,随着新一代 AI 技术与移动终端的深度融合,手机已经逐步进化为能够理解用户意图、提供主动服务、甚至预判用户需求的智能助理。

智能终端正在迈入 Agent 时代。和过去最大的不同在于:本地化 AI 推理能力使终端从被动响应指令的工具,升级为主动理解需求、跨应用协同的「智能伙伴」。

让这一蓝图成为现实的,则是多模态 AI 智能体,它将作为新的交互界面,无需物理界面,类似《阿凡达》中的灵魂树,连接所有赛博智能体,用户甚至通过思维直接与 AI 交互,来完成所有现实任务的执行。

姜大昕提出 AGI 发展需经历模拟世界、探索世界、归纳世界三大阶段:

  1. 模拟世界:通过模仿学习训练多模态模型,统一表征声音、文本、图像、视频及物理世界。
  2.  探索世界:引入强化学习(如AlphaGo、DeepSeek),赋予模型逻辑推理与问题解决能力。
  3. 归纳世界:探索机器自主发现物理规律的能力,如牛顿从苹果落地推导万有引力定律,目标是将 AI 与科学家协同创新。

通往 AGI 的路或许不止一条,但总需要有人去蹚出不同的路,阶跃星辰选择了智能终端 Agent 这条路,或许下一次人机交互的革新,已经埋下了草蛇灰线。

登录,参与讨论前请先登录

评论在审核通过后将对所有人可见

正在加载中