• 媒体品牌
    爱范儿
    关注明日产品的数字潮牌
    APPSO
    先进工具,先知先行,AIGC 的灵感指南
    董车会
    造车新时代,明日出行家
    玩物志
    探索城市新生活方式,做你的明日生活指南
  • 知晓云
  • 制糖工厂
    扫描小程序码,了解更多
2月14日,星期五
昨天 12:13
昆仑万维发布 Matrix-Zero世界模型,开启空间智能新时代

2月14日,昆仑万维正式推出Matrix-Zero世界模型,成为中国第一家同时推出3D场景生成、可交互视频生成模型的探索空间智能的企业。

昆仑万维发布Matrix-Zero世界模型,开启空间智能新时代

Matrix-Zero世界模型包含两款子模型:

01 3D场景生成大模型

昆仑万维自研3D场景生成大模型,支持将用户输入的图片转化为可自由探索的真实合理的3D场景,比World Labs生成场景的探索范围更大更自由,而且包括动态物理效果;

02可交互视频生成大模型

昆仑万维自研可交互视频生成大模型,提供以用户输入为核心驱动的可交互空间智能视频生成方案,支持根据用户实时输入生成互动视频效果,具备更精准控制的action model。

图像和视频作为当今人类获取信息的主要方式,3D场景生成和视频生成技术的发展有望彻底改变内容生产的方式,大幅提升创作效率。现有的3D AIGC工具(如TripoAI、Meshy等)主要聚焦于单个物体的生成,难以构建完整且合理的3D场景。而传统3D建模方法则成本高昂、耗时冗长,难以满足大规模内容生产的需求。

相比之下,结合AI驱动的2D视频生成与3D场景生成技术,不仅能大幅提升生成效率和泛化能力,使其适应更广泛的应用场景,还能增强结果的一致性与物理合理性,从而带来更加真实、沉浸的交互体验。这种融合技术将重塑数字内容创作模式,提升影视制作、游戏开发、具身智能等领域的生产效率与创新能力,推动行业迈向更高水平的发展。

作为一项新兴的前沿技术,空间智能融合了视频生成、三维建模等多种技术,实现对物理空间的数字化重建。其核心目标是将二维图像转换为可交互的三维场景,为用户提供更加自然、直观和沉浸式的体验。在数字时代的AI浪潮中,3D场景生成、视频生成模型以及相关空间智能技术,正以破竹之势给诸多行业带来颠覆性变革,特别是具身智能、影视制作、游戏娱乐等场景。

昆仑万维自研3D场景生成大模型,敢为人先开拓空间智能时代

昆仑万维Matrix-Zero的3D场景生成功能,支持将用户输入的图片转化为可自由探索的真实合理的3D场景,具备全局一致性、可自由探索、支持不同风格图片输入、支持风格迁移、支持动态场景生成等亮点。

Matrix-Zero生成的内容为全局一致的3D场景,我们输入一张图片「城堡的花园一角」,可以生成一副360度环视后场景保持不变的3D场景,最后一帧回到起始帧,不会出现生成结果前后不一致现象,能够应用在3D游戏场景的可控、快速建模,以及具身智能的模拟场景快速搭建。

昆仑万维发布Matrix-Zero世界模型,开启空间智能新时代

Matrix-Zero更亮眼的地方在于,可以支持在场景中进行任意方向的长距离、大范围的探索,为电影/短剧场景镜头生成提供了更多的可能性。

从行进方向来看,能实现先环视再前进、后退、前进后右转、360度俯视、180度回头、持续左转、环视场景、大范围前进等更大、更自由的角度探索。当我们走进一个大厅,视角和行进方向可以丝滑切换。

昆仑万维发布Matrix-Zero世界模型,开启空间智能新时代

又或者我们在同一个3D场景中,先让它180度回头(右上图),再环视一圈(右下图),它可以流畅地切换探索方向。昆仑万维发布Matrix-Zero世界模型,开启空间智能新时代

昆仑万维发布Matrix-Zero世界模型,开启空间智能新时代

无论输入图片是卡通风格或写实风格,Matrix-Zero均可生成合理3D场景。亦或对同一张输入图片,也可以支持不同风格的场景生成。Matrix-Zero能够丝滑地支持不同风格图片输入和风格迁移。

那么让我们输入一张「荷花池塘」图片和一张「位于森林中的房子」图片,Matrix-Zero即刻生成了写实的荷塘场景,也可以轻松切换输出场景风格,生成卡通风格的房子。

昆仑万维发布Matrix-Zero世界模型,开启空间智能新时代
昆仑万维发布Matrix-Zero世界模型,开启空间智能新时代

不仅如此,动态场景生成也不在话下,光照效果,水花动态、云雾动态等,Matrix-Zero均可生成合理3D场景,且动态符合物理规律,后续可用于生成符合真实物理规律的3D场景/视频,构建真正的世界模型。

让我们来看看自然界中普遍存在的光照效果和水流动态,Matrix-Zero生成的效果怎么样。输入一张「小桥流水」图片,Matrix-Zero能够生成栩栩如生的光照和水流效果,拟人逼真。

昆仑万维发布Matrix-Zero世界模型,开启空间智能新时代

能够实现这样的逼真效果,得益于昆仑万维自研3D场景生成大模型,包含两个核心模块:场景布局生成模块和纹理生成模块。几何生成模块借助可微渲染和扩散模型技术,能创造出和输入图片一致的3D场景布局;纹理生成模块在图片生成模型和视频生成模型基础上训练,当用户在场景中运动时,昆仑自研3D场景生成大模型不断对场景缺失区域进行几何和纹理的补全,从而确保用户在任何位置、任何角度都能看到合理、一致的场景。

自研可交互视频生成大模型,让自由探索3D世界成为现实

此前,谷歌Genie(可交互生成环境)系列已经向大众展示了世界模型的能力和魅力。为达到更好的流畅性、一致性等,昆仑万维可交互视频大模型建立在先进的生成式视频模型之上,结合自主研发的用户交互模块,最终实现了一种以用户输入为核心驱动的空间智能视频生成方案。

该方法能够在保证开放领域视频生成能力的同时,进一步增强对视频内容中视角移动的精确控制,使其更加符合用户的交互需求和预期。通过这种方式,我们不仅可以生成符合用户意图的视频内容,还能够优化空间智能模型的适配性,从而拓展在虚拟环境、交互式应用以及沉浸式体验中的应用场景。

例如输入一张「夜晚的街道」图片,Matrix-Zero可以接受用户任意的键盘移动方向控制、鼠标移动,生成对应的视频能够实现前后左右移动和视角移动。

昆仑万维发布Matrix-Zero世界模型,开启空间智能新时代

我们再输入一张「沙漠」图片,Matrix-Zero仍可以实现更自由地3D世界探索。

昆仑万维发布Matrix-Zero世界模型,开启空间智能新时代

在Matrix-Zero中,用户输入交互模型作为可交互视频模型的核心部分,专门用于解析用户输入信息,并将其转化为视频调整信号,以确保视频内容能够准确响应用户操作,使交互体验更加直观和流畅。该模块包含多个子系统,用于处理不同类型的用户输入,使其能够精准地影响视频的动态变化。包括以下几个关键部分:

  • 离散运动控制模块

该模块用于解析用户输入的离散控制信号,例如前进、跳跃、后退等基本运动指令。系统会对这些输入进行解析,并将其转化为对应的运动轨迹,从而影响视频中的对象行为,使其符合用户的交互需求。

  • 连续视角控制模块

视角移动模块主要用于解析鼠标或其他输入设备的连续控制信号,例如视角变化、方向调整等动态操作。该模块能够响应用户的实时输入,并对视频内容进行相应调整,确保视角变换的平滑性和一致性。

  • 3D场景位置追踪模块

该模块基于三维空间定位技术,提升视角移动时的位置稳定性。通过精确的空间坐标追踪,系统能够确保在不同场景下视角变换的自然性,并减少突兀的画面跳转问题,使视频内容更加连贯。

  • 滑动窗口机制优化控制体验

该机制用于引入时间序列中的历史输入信息,使系统能够更准确地预测用户的下一步操作,并优化控制响应的平滑度。通过滑动窗口技术,系统能够提高交互的流畅性,并有效减少输入延迟,提高整体用户体验。

作为针对图片对应的3D世界中自由探索提出的视频生成系统,Matrix-Zero能够在不同环境下高效地生成高质量的视频内容,并确保视频的流畅性、一致性和合理性。

紧握AI时代脉搏,成为中国探索空间智能的领跑者

昆仑万维作为中国AI领军企业,始终践行公司使命——实现通用人工智能,让每个人更好地塑造和表达自我,坚持在人工智能领域自主研发,持续推出AI产品。

过去三年,昆仑万维在视觉多模态、深度学习、强化学习等关键技术方向取得了一系列成绩,同时构建起了完整的AI矩阵:最懂金融、学术的天工AI搜索,全球首个AI音乐创作平台Mureka,AI短剧平台SkyReels,AI社交产品Linky,AI游戏等,形成了“AI前沿基础研究——基座模型——AI矩阵产品/应用”的产业链。

2025年1月,「天工大模型4.0」o1版和4o版正式上线天工APP和网页。2025年2月8日,昆仑万维旗下「天工AI」正式推出PC版重大更新——上线“DeepSeek R1 + 联网搜索”功能。

勇立潮头,敢为人先。今天,昆仑万维Matrix-Zero系列模型的开发和迭代也代表了公司对未来AI技术的提前布局,进一步赋能公司AI业务矩阵。交互生成模型的落地将变革可交互内容引擎,大大提升公司AI多矩阵产品的生产力

Matrix-Zero世界模型预计4月份上线,将对公司AI游戏生产、AI短剧生产和编辑等业务进一步赋能,为用户和开发者带来新的平台和工具。当视频模型发展到可以逼真模拟物理世界时,游戏可能不再需要传统的3D引擎,许多实验和模拟将可以在虚拟环境中进行,而影视创作也将变得更加普及,甚至成为每个人的基本技能。虽然这些看似是未来的场景,但技术正一步步将它们变为现实,视频生成模型的火热正是这一趋势的重要体现。

未来大模型发展将更加关注智能体工具和用户交互。空间智能技术不仅为未来智能体研发提供了虚拟平台,也带给用户全新的与生成世界交互的体验,大大提升了交互的多样性。空间智能技术的发展也将是通往具身智能乃至AGI路上的一个重要技术里程碑。我们仍将持续升级迭代,研发更先进的AI平台、打磨体验更好的AI产品,进一步推动人工智能的繁荣发展。

[展开]
加载更多