手机中的 AR 小应用究竟是如何实现的？

本文由 ARinChina（www.arinchina.com）原创，转载请联系 ARinChina（微信 ID：arinchinaservice）

农场中一头奶牛悠闲地吃着草，一个卡通小人儿在和消费者聊着天。出现这一切，都源于一个简单的牛奶瓶。消费者通过手机或平板扫描牛奶瓶身上的图案，就会呈现一个虚拟农场，可以选择各种小动物，并和它们进行互动。

荷兰飞天农场的 AR 营销活动，（腾讯视频）

这种深受孩子喜爱的宣传方式是怎么实现的呢？其实这个过程只需要六步：

通过摄像头采集实时视频；
将采集到的视频流数字化成图像，然后通过上文的特征点检测、特征点描述子生成、特征点匹配一系列处理，找到识别标识物；
识别出标识物后，以标识物作为参考，确定要生成的动画在 AR 环境中的位置和方向，并确定提前存入手机中的标识图位置；
标识物中的标识符号与预设的目标图进行匹配；
程序根据标识物位置调整动画（虚拟信息）位置；
动画（虚拟信息）被渲染进视频流。

这就是 AR 的实现过程，今天将为大家解释六步中的“精华”——识别并跟踪标识物。

牛奶瓶上的特点

当消费者拿起手机扫描牛奶瓶时，手机是怎么判断这幅图是不是自己要找的目标呢？

1020457411982

目标图是在开发这款 AR 应用时提前读入 app 的。启动 app 后，它就开始查找与标识图相同的帧。

这就像警察在抓逃犯时，会在各交通要道设立排查点，将过往行人与逃犯照片进行对比，进行排查。警察在比对照片时，不会每根头发，每个毛孔都要进行比较。他们会关注嫌疑人的一些显著外貌特征，与这些特征相似度极高的人视为犯罪嫌疑人。

1021123511982

同理，图像识别中的目标图也具有特征，我们将这些特征称为“特征点”。

那么问题来了，如何找到这些点？

图像在电子设备中的状态是一堆数字。特征点就是那些和周围数字值相差较大的点，检测方法一般有：FAST、Harris、SIFT、SURF、MSER 等。

1021599611982

FAST 特征点检测法因检测速度快而深受研究者喜爱，具体遵循以下步骤：

首先，从图像中选取一个像素，记作 P。如果我们想判断它是否为一个特征点，首先把 P 点的亮度值记作 I。再设定一个合适的阈值 t，用来控制特征点的选取。以 P 为圆心，3 个像素为半径做圆，这个圆的边界上有 16 个像素，如下图所示：

1022374011982

如果这 16 个像素的像素值都比 I+t 大，或都比 I-t 小，那么 P 就是一个特征点。一般在实际检测中，这 16 个像素不用全部与 P 的亮度值进行比较，只要有 3/4 个以上的像素亮度值比 P+t 大或比 P-t 小，就可以认为 P 点为特征点。

简单来说，特征点就是与周围反差较大的点，就像下图所示：

1023111511982

找到特征点就可以识别了么？

只知道检测到特征点还不行，必须知道两张图像中的特征是否一致。如何判断特征点是否一致，就需要借助特征点描述子了。

特征点描述子是一种描述特征点的方法。比如，我们在挑西瓜时，会选根蒂蜷缩、敲起来声音浊响的青绿西瓜。这个挑瓜的过程就是描述的过程，挑瓜的依据就相当于生成的描述子。

1023521511982

如果一个瓜和我们的挑瓜条件相似或相同，那么我们就判断它是一个好瓜。同样的如果一幅图像中有一个点和我们的描述子相似或相同，那么就可以判断它们为同一特征。

找到了特征点描述子，接下来就是要在目标图和识别图之间进行匹配。

1024211011982

判断两幅图是否为同一幅图的标准是人为控制的。我们既可以设置匹配率为 10% 以上的两幅图像是同一图像，也可以设置匹配率为 90% 以上。具体标准根据应用所需而定。

目前，特征点匹配技术大概分为两类：一类是分别获取两幅图像的特征点及特征点描述子，根据一定的搜索策略对这些特征点和描述子进行计算，最终获得最优极值点即为匹配结果；另一类是只获取参考帧图像的特征点信息，并利用它在当前帧上寻找最优匹配，这种匹配的最大优点是只需提取参考帧的特征点，节约了一半的特征点提取时间。