闭着眼睛也可读懂图片,Facebook 开源了一项次世代技术
Facebook 在当地时间周四宣布开源了一系列 AI 软件,可以识别出照片里物体的种类和形状。
这些软件由 Facebook 的 AI 研究团队(FAIR)打造,软件包括 DeepMask,SharpMask 和 MultiPathNet,这三个软件共同分解和识别图片内容。
这些软件虽然目前在 Facebook 用户产品上还不能被积极使用,但类似于今年四月 Facebook 发布的 AI 软件 “自动替代文字(automatic alternative text)”,用来为盲人描述图像内容。
AI 怎样 “分割” 图像?
DeepMask 和 SharpMask 作为 Facebook 的实验研究项目,其重点在于 FAIR 团队称的 “分割(segmentation)”。
人类可以在几秒内迅速识别一张照片中的组成元素,但是电脑要做到这样很难,需要去感知一系列根据颜色差异用数字标记出来的像素。接着,还要让电脑搞明白图像的主体和背景,或者前景部分如何打散成可区别的各个物体。最后,还要让电脑准确地识别出该物体是什么,这些都很难做到。
(图:The Verge)
而通过机器学习,Facebook 用算法让电脑学会演绎人类如何认知事物。团队也经过了无数个实验来研究人类神经网络中怎样理解现实世界中的物体和环境特性。
举个例子,FAIR 的算法就是让电脑接收一只羊的多张照片,并告诉算法一只羊看起来应该是什么样子的,电脑就会学会在照片中辨别出这只羊。
(图:The Verge)
神经网络辨别物体的过程就称为 “分割”,通过询问电脑一系列 “是或不是” 的问题来将内容分类,这就是 DeepMask 需要做的事情。
SharpMask 进一步优化 DeepMask 筛选出来的物体来达到更准确的答案。MultiPathNet 则将物体区分开来并将其归类。
这个 AI 有什么用?
这个 AI 技术让使用者不用键入标签就可以轻松找到所需的图像,帮助残疾人接收到他们看不见的信息。
FAIR 的研究成员 Piotr Dollar 表示:
我们的目的是提供更浸入式的体验,用户只要用手指点击图像,系统就会描述出用户触碰到的内容。不需要用双眼,用户就能得知图像有什么东西。
另一方面,该技术也可以进一步完善汽车的自动驾驶技术。
(图:INVERSE)
Facebook 为什么要开源这个 AI?
一位 Facebook 发言人接受 The Verge 的采访:
我们开源我们的编码,将研究发现作为学术论文发表在公众网站上,是想鼓励他人来共同分享这些技术。我们希望其他人也能加入我们团队来提升我们的软件技术。
实际上,微软和 Google 等公司也在做相关的研究。Google 已经将这样的技术应用在 Google 图片搜索上,也开源了它的技术,如 TensorFlow AI-training 软件。Facebook 这次开源也感受到一定的压力。
接下来,Facebook 想要挑战一下识别视频中的事物,这项技术相比在静态的图像上难非常多,但却是有必要的。
(图:Forbes)
马克·扎克伯格表示,以视频为中心的媒体形态,是未来五年内除了 VR 和更厉害的 AI 技术,社交网络最大机遇。
题图:cnBeta