最低调的「AI 六小龙」阶跃星辰，在 DeepSeek 浪潮中交出了一份新答卷

DeepSeek 掀起的浪潮还没结束，不只是 OpenAI ，中国的「 AI 六小龙」都要面临拷问：Scaling Law 是否还能持续，开源还是闭源，AI 落地的路线是否还行得通。

今天，AI 六小龙中一直比较低调的阶跃星辰，率先交出今年的第一份答卷。

在首届 Step UP生态开放日，阶跃星辰公布了自己探索 AGI 的方式，开启多模态推理的技术研究，并将 AI 落地的重点押注在智能终端，重点布局汽车、手机、具身智能、IoT 等应用场景。

阶跃星辰创始人、CEO 姜大昕认为，智能终端将成为 Agent （智能体）技术大规模应用的关键载体。

们朝着实现 AGI 的目标稳步前进，目前已进入 Agent（智能体）的发展阶段。

他指出智能体的发展依赖于两大关键要素：

一是多模态能力，让智能体充分地感知和理解世界；

二是推理能力，使智能体能够进行长思维链的慢思考，主动规划、尝试、反思，通过不断纠错提供准确的答案。

多模态让智能体像人一样「看、听、懂」，相当于人的「感官系统」，而推理能力就是处理信息的「大脑皮层」。

二者结合就能让 AI 《红楼梦》里的王熙凤，一双丹凤三角眼，不仅能察言观色，还能从一句话、一个动作中读出对方的深意。

多模态也是阶跃星辰在六小龙中最大的特点，目前阶跃 Step 系列模型矩阵已经发布了 11 款多模态大模型，覆盖语音识别、语音生成、多模态理解、图像及视频生成的全面能力。

前几天阶跃星辰还开源了Step-Video-T2V 视频生成模型和 Step-Audio 语音模型，成为六小龙最快拥抱开源的其中一位，但和 DeepSeek 不同的是，阶跃星辰开源的模型均为多模态，而这也是 DeepSeek 还没展现的能力。

去年 APPSO 就曾用阶跃星辰旗下的跃问应用，让还不支持的苹果 AI 的国行 iPhone 16 ，获得类似官方视觉智能的能力，按下拍摄按钮，拍照问就能轻松打开，看到任何需要咨询的东西，基本都能找到答案。

至于推理能力，阶跃星辰今天还宣布了和清华大学共同研发的开源推理模型 Open-Reasoner-Zero，首次从预训练模型开始就大规模强化学习，效率达到 DeepSeek-R1-Zero 的 25倍。

姜大昕在现场还预告了内部正在研发的视觉推理模型，其实这样揭示了阶跃星辰推动 AI 落地的技术逻辑：将多模态能力和推理能力结合，让智能终端成为 Agent 的载体。

目前，阶跃星辰的模型能力在智能终端主要有以下这些场景。

汽车场景：与吉利合作开发的智能座舱Agent，通过多模态交互（语音+视觉）实现「可见即可说」，例如用户说「导航到最近的充电站」，Agent自动调用地图、查询充电桩状态并规划路线。
手机场景：与 OPPO 共建的「一键问屏」功能，用户拍照或截图后，Agent 能直接解析图片内容（如商品、文档）并调用 API 完成搜索或翻译，无需手动切换 App。
IoT场景：与 TCL 等厂商合作，通过设备间联动实现主动服务，实现设备间的智能化升级和体验的无缝连接。
具身智能，：促进 Agent 在具身领域的创新应用。阶跃星辰宣布与智元机器人战略合作，共同探索 AI+具身机器人应用场景。

AI 智能终端是一个既性感又饱受争议的概念，可能会让很多硬件通过 AI 提升用户的体验，最近不少手机纷纷都宣布接入 DeepSek，同时去年爆火的 AI 硬件 Ai Pin，下个月就将停止所有的 AI 服务、消息推送等联网功能。

目前大多数手机接入的 DeepSeek，都是给语音助手加一个插件式外挂，同时由于 DeepSeek 尚不支持多模态能力，使用场景受到的限制就比较多。最近网上流行的「DeepSeek+xx」的组合玩法，其实就是为了弥补其缺乏的能力。

去年率先喊出 AI 手机的 OPPO，就在 AI 终端融合走得更远。