《最强大脑》第三场《核桃计划》比赛难点及技术解析

The Beginning

　　近日，江苏卫视《最强大脑》第四季人机大战第三场已经结束。从未失算的“水哥”王昱珩，在图像识别方面与搭载百度大脑的小度机器人进行实力交锋。最终，“小度”以2：0的战绩战胜对手，并以3：1的总战绩，斩获2017年度脑王巅峰对决的晋级资格。

　　本场竞赛题目为 “核桃计划”：通过三段在夜幕下分别从行车记录仪、高位摄像头和女生手机中拍到的模糊动态影像中，让“小度“和水哥识别三位“嫌疑人”的特征后，从30位性别相同、身高体重年龄均相似的候选人现场拍照中，准确找出三位“嫌疑人”。

　　比赛虽已结束，但对于相关人工智能识别技术的讨论仍在继续，本文仅从技术角度阐释本场的难点及背后的技术解析。

　　1.比赛难点：动态识别

　　相较于第一期的跨年龄人脸识别，本次识别的动态性为是识别技术需要突破的主要难点。

　　光照问题

　　面临各种环境光源的考验，可能出现侧光、顶光、背光和高光等现象，而且有可能出现各个时段的光照不同，甚至在监控区域内各个位置的光照都不同。

　　人脸姿态和饰物问题

　　因为监控是非配合型的，监控人员通过监控区域时以自然的姿态通过，因此可能出现侧脸、低头、抬头等的各种非正脸的姿态和佩戴帽子、黑框眼镜、口罩等饰物现象。

　　摄像机的图像问题

　　摄像机很多技术参数影响视频图像的质量，比赛中的视频场景较暗，使采集的图像质量也受到影响，有效信息被弱化。

　　丢帧和丢脸问题

　　动态监测中，人脸在某一帧可能是模糊不清的，出现丢帧或者丢脸的现象，为识别带来挑战。

　　2.动态人脸识别技术解析

　　动态人脸识别主要通过三步实现：在视频中进行人脸跟踪和监测、进行通用人脸识别模型的训练、实现不同场景下的人脸识别。

　　Step1：人脸跟踪检测

　　用深度学习的方法对视频中出现的人脸进行跟踪和检测，在跟踪过程中提取质量较好的照片。

　　Step2：通用人脸识别模型训练

　　人脸检测：

　　根据眼睛、眉毛、嘴巴、鼻子等器官的特征以及相互之间的几何位置关系来检测人脸，即在在一副图像或一序列图像（比如视频）中判断是否有人脸,若有则返回人脸的大小、位置等信息。

　　【参考文献：《人脸识别——原理、方法与技术》，王映辉编，科学出版社】

　　图片描述

　　人脸图像预处理：

　　系统获取的原始图像由于受到各种条件的限制和随机干扰，往往不能直接使用，必须在图像处理的早期阶段对它进行灰度校正、噪声过滤等图像预处理。

　　人脸图像的预处理主要包括人脸对准，人脸图像的增强，以及归一化等工作。

　　人脸对准是为了得到人脸位置端正的人脸图像；图像增强是为了改善人脸图像的质量，不仅在视觉上更加清晰图像，而且使图像更利于计算机的处理与识别。

　　归一化工作的目标是取得尺寸一致，灰度取值范围相同的标准化人脸图像。

　　【人脸图像的预处理】

　　人脸图像特征提取:

　　人脸特征提取就是针对人脸的某些特征进行的。人脸特征提取，也称人脸表征，它是对人脸进行特征建模的过程。

　　人脸图像匹配与识别：

　　人脸识别就是将待识别的人脸特征与已得到的人脸特征模板进行比较，根据相似程度对人脸的身份信息进行判断。这一过程又分为两类：

　　一类是人脸确认，是一对一进行图像比较的过程，将某人面像与指定人员面像进行一对一的比对，根据其相似程度(一般以是否达到或超过某一量化的可信度指标/阀值为依据)来判断二者是否是同一人。

　　另一类是人脸辨认，是一对多进行图像匹配对比的过程。将某人面像与数据库中的多人的人脸进行比对(有时也称“一对多”比对)，并根据比对结果来鉴定此人身份，或找到其中最相似的人脸，并按相似程度的大小输出检索结果。

　　可查阅：人脸识别概述及识别的基本方法与流程

　　Step3：有遮挡遮挡人脸识别训练

　　人脸识别模型将人脸分为不同的部分，对每部分的进行特征提取，随后通过该部位的特征描述得出遮挡程度，然后根据遮挡程度对有可提供有效信息的部位进行决策，对有效部位进行识别。

　　三、百度人脸识别技术实现

　　百度的人脸识别技术将获取到的人脸图像经过轮廓定位态校正、全局粗定位、局部精细定位等步骤，实现72个关键点的检测和跟踪，并将其连结起来形成面部表情网，据此识别不同面部表情，即使在极端的条件下，也可轻松完成。

THE END

TAG:核桃难点最强大脑