三星新技术:让蒙娜丽莎开口「说话」
不止蒙娜丽莎,玛丽莲梦露也「活」过来了,红唇一张就开始说话,眼角眉梢风情万种。
还有只在物理书里面看到过的爱因斯坦,你现在甚至能感受到科学道理正从他口中倾泻而出……
现在,你可能会以为这是什么特效视频里截取的画面,但事实上,这些人物的动态视频,都仅源于旁边那一张照片。
来自三星 AI 中心和莫斯科 Skolkovo 科学技术研究所的研究人员,成功地开发出了这个「人像照变动态表情包」的 AI 系统,并于 5 月 20 日在 ArXiv.org 网站上公布了他们的研究成果。
前阵子闹得沸沸扬扬的「色情换脸」,需要大量人物的图像信息再加原生视频,才能生产出一个新的合成视频,而这次三星 AI 只需基于一张肖像照片或一张画像,就能让里面人物的面部表情都动得栩栩如生。
虽然并非完美无瑕,但足以让人信以为真。
制作这个视频并不容易。
因为人类的视觉思维对脸部细节极其敏感,因此每个微小部分,包括嘴巴的弧度、头发的轮廓、眨眼的速度都很难忽视。所以这套人工智能系统经过了一段漫长的训练时光。
研究人员从 YouTube 收集了 7000 张名人照片,提取其「标志性」的面部特征,然后系统通过观看大量人类说话的面孔和表情丰富的视频进行学习。
▲「让照片动起来」的学习架构图
之后,人工智能系统就能将学到的内容应用到单张照片或多张照片上,高效地找到与系统学习的脸部相对应的部分,然后因人而异地针对新面部里各个的关键点,特别是眼睛、鼻子和嘴巴进行调整,最后达到最自然的动态效果。
当可以使用的照片越多,视频就会越加逼真,32 个图像,就足以让视频以假乱真。
虽然仔细看,人物边缘的地方依然有模糊的部分,不能识别的地方也只能用背景画面粗糙填充,玛丽莲梦露的视频还少了那颗标志性的痣。而且,视频也没有声音,动态只能呈现在面部,一张一合的嘴角就像一个练习生在唱 Rap,但它依然是一个颠覆式的创新,简单点说,实现了一键把 JPG 变 GIF。
研究人员表示,未来,这个 AI 系统将会被广泛应用在视频、游戏、电视、电影,以及特效行业中,估计现在,它就已经被 B 站上的鬼畜艺术家盯上了。而单张或少量照片就能完成动态人像的速度和效率,也让该模型更利于推广。
不过同时,这也意味着很快会有图谋不轨之人利用临时拼凑的工具来模仿它,进行群众误导或虚假诈骗,还有可能把一个人的人像照片制作出不可描述的动态表情,放在不可描述的身体上做不可描述的事情。
尽管它还不足以引起 Deepfakes「色情换脸」那样的风波,但它比起「色情换脸」使用起来更简易便捷,在人人都暴露无遗的互联网时代,担忧也并非没有必要,只是现在还为时尚早。
目前,该研究还处于简单测试阶段,复杂的神经网络模型要变得轻量化也有重担在后。不过就像哈利波特第一次去霍格沃茨魔法学校,看到那活了的石墙肖像而惊诧不已一样,现在,它在现实里也成真了。
接下来等待我们的,就是一个魔法世界。