字节最新技术一键「迁移」表情神态，人人都是演技派

近日，字节跳动和清华大学在 GitHub 上联合推出了一款最新的人像动画技术「X-Portrait 2」。

具体来讲，X-Portrait 2 是一款「生成式人像转移模型」，其使用方法非常直观和简单：用户只需要提供一张静态肖像图和一段含有表情变化的「表演」视频，这个技术就能一键将表情「迁移」至肖像上面，从而使前者也「动起来」。

就像下面这样：

可以看到，左下角是「静态肖像」，右下角则是「表演视频」，而 X-Portrait 2 的功能就是让左边的角色做出同右边人物几乎一模一样的表情。

除了「表情」以外，就连「神态」也几乎是像素级复刻：

眉眼和笑容之中所包含的「狡黠」和「顽皮」，全部都精准地呈现出来了。

头部扭动幅度较大的情况下，X-Portrait 2 也完全可以胜任，表情也并未失真：

一个比较「务实」的使用场景，是它可以用来「对口型」，有时可以配合后期修改台词的需要：

不仅复刻精准，并且也足够流畅自然。发布者也因此将其称为「极具表现力的肖像动画」。

显然，这个模型能够实现跨风格和跨领域的表情转移，覆盖写实肖像和卡通图像；并且适应性较强，能够用于包括现实世界的故事讲述、动画角色的呈现、虚拟代理以及其他视觉效果。

在电影或者动画的后期特效制作方面，X-Portrait 2 无疑大大简化了现有的动作捕捉、角色动画和内容创作流程。

相较于其原型 X-Portrait，X-Portrait 2 的升级和创新谓之「进化」都不为过。

X-Portrait 2 采用了一个更先进的表情编码器，这个编码器在大规模数据集上进行训练，其能够更精确地捕捉和再现人物的微妙表情，包括嘟嘴、鼓腮和皱眉等细节，还原了表情的复杂性，并提升了其真实感。

同时，X-Portrait 2 实现了外观和动作的有效分离，这意味着在迁移表情时，原始图像的外观特征得以保留，表情变化不会影响人物的基本面貌，提高了动画的自然程度和一致性。

值得一提的是，X-Portrait 2 还创新地引入了生成式扩散模型，这种模型能够处理不同视角下的表情变化，生成更加流畅和真实的动画效果，解决了传统方法在视角变化时可能出现的表情不协调问题。

此外，X-Portrait 2 还增强了跨领域的表情迁移能力以及动画的真实感和动态表现力。

和早先发布的同类竞品——Runway 的 Act-One 相比，X-Portrait 2 也毫不逊色。同样是「Nice 老爷爷」的喜感表情，Act-One 的生成效果是这样的：

▲图源：虎嗅

似乎只做到了「迁移」，并且表情的夸张程度衰减明显，还略微有点僵硬。如果遮住原视频，可能根本看不出来这是在模仿谁。

同一个表情，以下是 X-Portrait 2 的生成效果：

除了表情的复刻更加精准细腻以外，我们似乎还能感受到那种自然流露的「喜感」。这才是 X-Portrait 2 的厉害之处。

对于 X-Portrait 2 的优势，开发者是这样说的：

与 X-Portrait 和最近发布的 Runway Act-One 等最先进的方法相比，我们的模型可以忠实地传递快速的头部运动、微小的表情变化和强烈的个人情感。这些方面对于高质量动画内容创作（例如动画和电影制作中的内容）至关重要。

来看一个更加直观的对比：

显而易见，同初代 X-Portrait 相比，X-Portrait 2 的进步在于更加「自然流畅」；而同 Act-One 相比，X-Portrait 2 则更加「精准细腻」。

无论如何，X-Portrait 2 的推出继续发扬了「用生成式 AI 代替动捕」这个可能的概念，并且使它更加成熟，距离落地商用又近了一步。