三星新技术：让蒙娜丽莎开口「说话」

你有没有想过，有一天蒙娜丽莎不只会神秘微笑，还会对你挑眉眨眼、娓娓而谈？

不止蒙娜丽莎，玛丽莲梦露也「活」过来了，红唇一张就开始说话，眼角眉梢风情万种。

还有只在物理书里面看到过的爱因斯坦，你现在甚至能感受到科学道理正从他口中倾泻而出……

现在，你可能会以为这是什么特效视频里截取的画面，但事实上，这些人物的动态视频，都仅源于旁边那一张照片。

来自三星 AI 中心和莫斯科 Skolkovo 科学技术研究所的研究人员，成功地开发出了这个「人像照变动态表情包」的 AI 系统，并于 5 月 20 日在 ArXiv.org 网站上公布了他们的研究成果。

前阵子闹得沸沸扬扬的「色情换脸」，需要大量人物的图像信息再加原生视频，才能生产出一个新的合成视频，而这次三星 AI 只需基于一张肖像照片或一张画像，就能让里面人物的面部表情都动得栩栩如生。

虽然并非完美无瑕，但足以让人信以为真。

制作这个视频并不容易。

因为人类的视觉思维对脸部细节极其敏感，因此每个微小部分，包括嘴巴的弧度、头发的轮廓、眨眼的速度都很难忽视。所以这套人工智能系统经过了一段漫长的训练时光。

研究人员从 YouTube 收集了 7000 张名人照片，提取其「标志性」的面部特征，然后系统通过观看大量人类说话的面孔和表情丰富的视频进行学习。

▲ 「让照片动起来」的学习架构图

之后，人工智能系统就能将学到的内容应用到单张照片或多张照片上，高效地找到与系统学习的脸部相对应的部分，然后因人而异地针对新面部里各个的关键点，特别是眼睛、鼻子和嘴巴进行调整，最后达到最自然的动态效果。

当可以使用的照片越多，视频就会越加逼真，32 个图像，就足以让视频以假乱真。

虽然仔细看，人物边缘的地方依然有模糊的部分，不能识别的地方也只能用背景画面粗糙填充，玛丽莲梦露的视频还少了那颗标志性的痣。而且，视频也没有声音，动态只能呈现在面部，一张一合的嘴角就像一个练习生在唱 Rap，但它依然是一个颠覆式的创新，简单点说，实现了一键把 JPG 变 GIF。

研究人员表示，未来，这个 AI 系统将会被广泛应用在视频、游戏、电视、电影，以及特效行业中，估计现在，它就已经被 B 站上的鬼畜艺术家盯上了。而单张或少量照片就能完成动态人像的速度和效率，也让该模型更利于推广。

不过同时，这也意味着很快会有图谋不轨之人利用临时拼凑的工具来模仿它，进行群众误导或虚假诈骗，还有可能把一个人的人像照片制作出不可描述的动态表情，放在不可描述的身体上做不可描述的事情。

尽管它还不足以引起 Deepfakes「色情换脸」那样的风波，但它比起「色情换脸」使用起来更简易便捷，在人人都暴露无遗的互联网时代，担忧也并非没有必要，只是现在还为时尚早。

目前，该研究还处于简单测试阶段，复杂的神经网络模型要变得轻量化也有重担在后。不过就像哈利波特第一次去霍格沃茨魔法学校，看到那活了的石墙肖像而惊诧不已一样，现在，它在现实里也成真了。

接下来等待我们的，就是一个魔法世界。