微软计算机视觉识别在 ImageNet 挑战中取得突破

近期，微软亚洲研究院视觉计算组开发的计算机视觉系统，在 ImageNet 1000 挑战中首次超越人类进行对象识别分类的能力。该计算机视觉系统基于深度卷积神经网络（CNN）开发，其终极目标是使计算机能够模拟出人类的感知能力。

微软研究团队表示，该系统在 ImageNet 2012 分类数据集中的错误率已降低至 4.94%。此前同样的实验中，人眼辨识的错误率大概为 5.1%。这个数据集包含约 120 万张训练图像、5 万张验证图像和 10 万张测试图像，分为 1000 个不同类别。

微软研究员表示：“我们的研究成果是这项视觉识别挑战中第一个超越人类视觉能力的计算机系统。” 最新成果要归功于两项关键突破：一是开发了适应性更强的非线性神经元，二是改进训练算法，使得神经网络更为强大。

该研究团队虽然对算法超越人类视觉识别极限感到兴奋，但也强调计算机视觉目前从根本上仍无法与人类视觉相比。计算机系统在识别物体、理解图像上下文及场景高级信息等领域仍面临诸多挑战。

题图源自nbcnews