昆仑万维发布 Matrix-Zero世界模型，开启空间智能新时代

2月14日，星期五

02-14 12:13

2月14日，昆仑万维正式推出Matrix-Zero世界模型，成为中国第一家同时推出3D场景生成、可交互视频生成模型的探索空间智能的企业。

Matrix-Zero世界模型包含两款子模型：

01 3D场景生成大模型

昆仑万维自研3D场景生成大模型，支持将用户输入的图片转化为可自由探索的真实合理的3D场景，比World Labs生成场景的探索范围更大更自由，而且包括动态物理效果；

02可交互视频生成大模型

昆仑万维自研可交互视频生成大模型，提供以用户输入为核心驱动的可交互空间智能视频生成方案，支持根据用户实时输入生成互动视频效果，具备更精准控制的action model。

图像和视频作为当今人类获取信息的主要方式，3D场景生成和视频生成技术的发展有望彻底改变内容生产的方式，大幅提升创作效率。现有的3D AIGC工具（如TripoAI、Meshy等）主要聚焦于单个物体的生成，难以构建完整且合理的3D场景。而传统3D建模方法则成本高昂、耗时冗长，难以满足大规模内容生产的需求。

相比之下，结合AI驱动的2D视频生成与3D场景生成技术，不仅能大幅提升生成效率和泛化能力，使其适应更广泛的应用场景，还能增强结果的一致性与物理合理性，从而带来更加真实、沉浸的交互体验。这种融合技术将重塑数字内容创作模式，提升影视制作、游戏开发、具身智能等领域的生产效率与创新能力，推动行业迈向更高水平的发展。

作为一项新兴的前沿技术，空间智能融合了视频生成、三维建模等多种技术，实现对物理空间的数字化重建。其核心目标是将二维图像转换为可交互的三维场景，为用户提供更加自然、直观和沉浸式的体验。在数字时代的AI浪潮中，3D场景生成、视频生成模型以及相关空间智能技术，正以破竹之势给诸多行业带来颠覆性变革，特别是具身智能、影视制作、游戏娱乐等场景。

昆仑万维自研3D场景生成大模型，敢为人先开拓空间智能时代

昆仑万维Matrix-Zero的3D场景生成功能，支持将用户输入的图片转化为可自由探索的真实合理的3D场景，具备全局一致性、可自由探索、支持不同风格图片输入、支持风格迁移、支持动态场景生成等亮点。

Matrix-Zero生成的内容为全局一致的3D场景，我们输入一张图片「城堡的花园一角」，可以生成一副360度环视后场景保持不变的3D场景，最后一帧回到起始帧，不会出现生成结果前后不一致现象，能够应用在3D游戏场景的可控、快速建模，以及具身智能的模拟场景快速搭建。

Matrix-Zero更亮眼的地方在于，可以支持在场景中进行任意方向的长距离、大范围的探索，为电影/短剧场景镜头生成提供了更多的可能性。

从行进方向来看，能实现先环视再前进、后退、前进后右转、360度俯视、180度回头、持续左转、环视场景、大范围前进等更大、更自由的角度探索。当我们走进一个大厅，视角和行进方向可以丝滑切换。

又或者我们在同一个3D场景中，先让它180度回头（右上图），再环视一圈（右下图），它可以流畅地切换探索方向。昆仑万维发布Matrix-Zero世界模型，开启空间智能新时代

昆仑万维发布Matrix-Zero世界模型，开启空间智能新时代

无论输入图片是卡通风格或写实风格，Matrix-Zero均可生成合理3D场景。亦或对同一张输入图片，也可以支持不同风格的场景生成。Matrix-Zero能够丝滑地支持不同风格图片输入和风格迁移。

那么让我们输入一张「荷花池塘」图片和一张「位于森林中的房子」图片，Matrix-Zero即刻生成了写实的荷塘场景，也可以轻松切换输出场景风格，生成卡通风格的房子。

不仅如此，动态场景生成也不在话下，光照效果，水花动态、云雾动态等，Matrix-Zero均可生成合理3D场景，且动态符合物理规律，后续可用于生成符合真实物理规律的3D场景/视频，构建真正的世界模型。

让我们来看看自然界中普遍存在的光照效果和水流动态，Matrix-Zero生成的效果怎么样。输入一张「小桥流水」图片，Matrix-Zero能够生成栩栩如生的光照和水流效果，拟人逼真。

能够实现这样的逼真效果，得益于昆仑万维自研3D场景生成大模型，包含两个核心模块：场景布局生成模块和纹理生成模块。几何生成模块借助可微渲染和扩散模型技术，能创造出和输入图片一致的3D场景布局；纹理生成模块在图片生成模型和视频生成模型基础上训练，当用户在场景中运动时，昆仑自研3D场景生成大模型不断对场景缺失区域进行几何和纹理的补全，从而确保用户在任何位置、任何角度都能看到合理、一致的场景。

自研可交互视频生成大模型，让自由探索3D世界成为现实

此前，谷歌Genie（可交互生成环境）系列已经向大众展示了世界模型的能力和魅力。为达到更好的流畅性、一致性等，昆仑万维可交互视频大模型建立在先进的生成式视频模型之上，结合自主研发的用户交互模块，最终实现了一种以用户输入为核心驱动的空间智能视频生成方案。

该方法能够在保证开放领域视频生成能力的同时，进一步增强对视频内容中视角移动的精确控制，使其更加符合用户的交互需求和预期。通过这种方式，我们不仅可以生成符合用户意图的视频内容，还能够优化空间智能模型的适配性，从而拓展在虚拟环境、交互式应用以及沉浸式体验中的应用场景。

例如输入一张「夜晚的街道」图片，Matrix-Zero可以接受用户任意的键盘移动方向控制、鼠标移动，生成对应的视频能够实现前后左右移动和视角移动。

我们再输入一张「沙漠」图片，Matrix-Zero仍可以实现更自由地3D世界探索。

在Matrix-Zero中，用户输入交互模型作为可交互视频模型的核心部分，专门用于解析用户输入信息，并将其转化为视频调整信号，以确保视频内容能够准确响应用户操作，使交互体验更加直观和流畅。该模块包含多个子系统，用于处理不同类型的用户输入，使其能够精准地影响视频的动态变化。包括以下几个关键部分：

离散运动控制模块

该模块用于解析用户输入的离散控制信号，例如前进、跳跃、后退等基本运动指令。系统会对这些输入进行解析，并将其转化为对应的运动轨迹，从而影响视频中的对象行为，使其符合用户的交互需求。

连续视角控制模块

视角移动模块主要用于解析鼠标或其他输入设备的连续控制信号，例如视角变化、方向调整等动态操作。该模块能够响应用户的实时输入，并对视频内容进行相应调整，确保视角变换的平滑性和一致性。

3D场景位置追踪模块

该模块基于三维空间定位技术，提升视角移动时的位置稳定性。通过精确的空间坐标追踪，系统能够确保在不同场景下视角变换的自然性，并减少突兀的画面跳转问题，使视频内容更加连贯。

滑动窗口机制优化控制体验

该机制用于引入时间序列中的历史输入信息，使系统能够更准确地预测用户的下一步操作，并优化控制响应的平滑度。通过滑动窗口技术，系统能够提高交互的流畅性，并有效减少输入延迟，提高整体用户体验。

作为针对图片对应的3D世界中自由探索提出的视频生成系统，Matrix-Zero能够在不同环境下高效地生成高质量的视频内容，并确保视频的流畅性、一致性和合理性。

紧握AI时代脉搏，成为中国探索空间智能的领跑者

昆仑万维作为中国AI领军企业，始终践行公司使命——实现通用人工智能，让每个人更好地塑造和表达自我，坚持在人工智能领域自主研发，持续推出AI产品。

过去三年，昆仑万维在视觉多模态、深度学习、强化学习等关键技术方向取得了一系列成绩，同时构建起了完整的AI矩阵：最懂金融、学术的天工AI搜索，全球首个AI音乐创作平台Mureka，AI短剧平台SkyReels，AI社交产品Linky，AI游戏等，形成了“AI前沿基础研究——基座模型——AI矩阵产品/应用”的产业链。

2025年1月，「天工大模型4.0」o1版和4o版正式上线天工APP和网页。2025年2月8日，昆仑万维旗下「天工AI」正式推出PC版重大更新——上线“DeepSeek R1 + 联网搜索”功能。

勇立潮头，敢为人先。今天，昆仑万维Matrix-Zero系列模型的开发和迭代也代表了公司对未来AI技术的提前布局，进一步赋能公司AI业务矩阵。交互生成模型的落地将变革可交互内容引擎，大大提升公司AI多矩阵产品的生产力。

Matrix-Zero世界模型预计4月份上线，将对公司AI游戏生产、AI短剧生产和编辑等业务进一步赋能，为用户和开发者带来新的平台和工具。当视频模型发展到可以逼真模拟物理世界时，游戏可能不再需要传统的3D引擎，许多实验和模拟将可以在虚拟环境中进行，而影视创作也将变得更加普及，甚至成为每个人的基本技能。虽然这些看似是未来的场景，但技术正一步步将它们变为现实，视频生成模型的火热正是这一趋势的重要体现。

未来大模型发展将更加关注智能体工具和用户交互。空间智能技术不仅为未来智能体研发提供了虚拟平台，也带给用户全新的与生成世界交互的体验，大大提升了交互的多样性。空间智能技术的发展也将是通往具身智能乃至AGI路上的一个重要技术里程碑。我们仍将持续升级迭代，研发更先进的AI平台、打磨体验更好的AI产品，进一步推动人工智能的繁荣发展。

[展开]