用两年时间，憋一个大招，格灵深瞳挑战最难的计算机视觉难题 | iSeed

如果要让机器人和人一样，首先得让它感受到人所能感受到的世界。从 Wii 开始，到 Kinect 再到 Project Tango 以及 Hololens，我们看到计算机视觉领域的飞速发展，开始让机器拥有自己的眼睛。因此本次 iSeed 访谈系列主题为“为计算机安上眼睛”，我们采访了数家相关团队，将陆续发布。

“全世界 50% 的监控数据是视频监控数据。世界上每卖出两块硬盘，其中有一块就用于视频监控。”前 Google Glass 核心研究员赵勇，现格灵深瞳创始人在一次公开演讲时说。

格灵深瞳，在计算机视觉领域也是一个倍受瞩目的初创公司。去年它成功吸引红杉资本，完成 A 轮数千万美元的融资。

回到文章开头，视频、图像是巨大、但在沉睡着的宝贵数据。过去我们找不到如何利用这些数据的方式，但现在不同了，随着“深度学习”的发展，“卷积神经网络”的提出、大规模运用，人们逐步找到计算机解读这些数据的。这正是格灵深瞳正在做的事情。

赵勇对爱范儿说，“格灵深瞳现在正在做三款产品，第一个产品是一种基于三维视觉系统的安防监控设备，它可以理解视野范围内人的行动，主要客户是银行；第二个产品是我们下个月即将发布，用于可识别汽车的视觉系统；第三个是一个我们工作快一年的汽车视觉产品，目前暂时不方便透露更多信息。”

关于格灵深瞳下一个月发布的视觉识别产品，它可以识别行驶中的车辆，知道汽车的速度以及位置，而且还可以识别车牌号，车型，以及生产年份。要做到这样并不简单，毕竟路况复杂，光照条件不同，同一款式的汽车还会喷涂不同的颜色，不同颜色在不同光照条件下又有不同的表现，复杂的外界条件会增加视觉识别的难度。

格灵深瞳的产品，其实是“基于三维深度视觉信号处理技术的视觉传感器网络”。

在知乎上，赵勇回答了这个“网络”是怎么一回事。“我们的产品是以网络形式出现的。在我们的网络中，每一个传感器不仅仅可以识别自己视野里的目标，还可以和网络中联通的其他传感器一起协同工作，在网络规模下发挥更大的作用。”——这个网络的提出，一个目的是希望解决人与人之间的重叠遮挡问题。

从动作分析的角度来看，赵勇把这个问题分为粗粒度与细粒度两个层次。

“粗粒度的问题是，通过视觉分析人体的整体移动。但是在现实环境里，这个问题会变得很复杂，比如说地铁里有人会背着包、有人会抱个孩子之类，我们要在这样的情况下来分析一个人的整体移动情况。细粒度的问题是，具体则是一个人的手、腿会有怎样的动作。在这方面各大公司做了很多工作，但是它们的产品是在客厅使用，也就是在一个可控的环境下，不存在遮挡的问题。”

“我们现在遇到最困难的问题，依然是严重的遮挡。当遮挡发生时，识别就变得困难。在理想的环境下，我们可以用一部 PC 来对场景进行分析，但在安防领域，这就不一样了，我们必须把这样一个高性能高功耗的东西塞进摄像头里。所以我们需要针对嵌入式进行研发。现在研发已经有一定的成果了，不过大家还需要等一段时间才能看到。”