利用AI“看面相”预测犯罪倾向？谷歌研究员两万字批驳(2)_

　　卷积神经网络应用十分广泛，性能也非常强大。例如，Ilya Kostrikov 和 Tobias Weyand 提出的 ChronoNet，这个 CNN 可以猜测拍摄照片的年份。他们使用的数据是在过去 100 年间拍摄已知的日期的照片，这些照片都带了某种程度的标签（在这种情况下为日期照片），因此获取标记数据用于训练这个网络相对来说比较简单。

　　一旦网络被训练好，就可以输入照片，可以看出系统猜测拍摄的那一年。例如，以下两张照片都是 ChronoNet 猜测1951（左）和1971（右）：

　　利用AI“看面相”预测犯罪倾向？谷歌研究员两万字批驳

　　图2 深度学习猜测拍摄年份的照片

　　这些都是很好的猜测。左边的照片在 1950 年在斯德哥尔摩海滨拍摄的，右边的照片则是 1972 年尼克松在亚特兰大州发表竞选演说，旁边是尼克森夫人。

　　神经网络究竟是如何计算出来的？从机械学的角度来看，数百万个学习参数只是一系列加权平均计算中使用的权重。从原始像素值开始，加权平均值被组合，然后用作相似的计算集合的输入，然后又被用作另一个类似的计算集合的输入，等等——在多层网络中创建一个级联的加权平均计算。[3] 在 ChronoNet 中，最后一层的输出对应的是照片拍摄可能年份的概率值。虽然在技术上是正确的，但这个“概率”是无法解释的；让一位人类专家判断这两张照片的年代，他同样可以说：“我这样回答，是因为我的神经元就是这么连在一起的。”

　　事实上，像人类专家一样，人工神经网络很可能学到了发现各种细微线索，从低级属性，如胶片颗粒和色域（电影处理技术在 20 世纪得到了长足的发展）到衣服和发型，乃至车型和字体。上面那张斯德哥尔摩照片中的扬声器和婴儿车的风格也可能是线索。自 2006 年以来，所谓的深度学习进一步加快了人工智能的快速发展，与任务（颜色、汽车模型等）相关的特征可以被隐含地学习，为更高层次的目标（比如猜测照片拍摄年代）服务。[4]

　　以前的机器学习方法也可能已经达到了猜测照片拍摄年代的高级目标，但是需要手工编写计算机代码，从原始图像中提取字体和发型等特征。让计算机能够端到端的学习一个复杂的问题，省去了编码这样的定制工作，大大加快了开发速度，也经常大幅地提高了结果的准确率。

　　这既机器学习的力量也是这种方法的危险，特别是深度学习。深度学习的力量我们是清楚的：一般的方法可以发现各种不同问题中的隐含关系；系统本身会去寻找去学习的内容。而深度学习的危险则来自于一个科学家或工程师可以轻松地设计一个分类任务，让机器在不了解任务实际测量的内容，或者系统实际发现的模式的前提下，进行很好的学习。这种情况下，机器“如何”或“为什么”做出判断就变得很重要了，尤其是涉及到判断一个人的性格或犯罪情况时。

　　论文摘要

　　我们首次进行基于静止的人脸图像自动推测犯罪性的研究。通过有监督机器学习，我们使用 1856 张真实的人的面部照片建四个分类器（逻辑回归，KNN，SVM，CNN），这些人中有近一半是已被定罪的犯罪者，其余是非犯罪者，我们以民族、性别、年龄和面部表情作为控制要素，让计算机区分犯罪者和非犯罪者。四个分类器都表现良好，为根据脸部特征自动预测犯罪性提供了有效性证据，尽管围绕该主题存在历史性争议。此外，我们发现一些可以预测犯罪性的结构上的区别特征，例如嘴角的弧度、眼内角间宽、以及所谓的鼻唇角角度。这项研究最重要的发现是，犯罪者和非犯罪者的面部照片在表情的多样性方面非常不同。犯罪者的面部表情变化明显大于非犯罪者。由两组照片组成的两个流形看起来是同心的，非犯罪者的流形的跨度较小，表现出正常的规律。换句话说，一般守法公民的面貌与犯罪者的面貌相比具有更大程度上的相似性，也就是说，犯罪分子在面部表情上的差异比普通人更大。

　　通过机器学习来推断一个人是否是“犯罪分子”？

　　《使用脸部图像自动推理罪犯》要做的，也是 ChronoNet 类似的事情，除了后者是推测任意照片拍摄的年代，而前者则是根据人脸部图像推测一个人是否有犯罪记录。因此，吴和张在论文中写道，这是首次“为自动根据人脸推理罪犯提供了证据”。

　　为了说明为什么这种说法有问题，接下来我们将更详细地解说其研究方法和结果。

　　方法和结果

　　吴和张的数据集是中国政府颁发的身份证照片，一组含有 1,856 张 80x80 像素的中国男性面孔近照（closely cropped）。这些男性年龄介于 18 至 55 岁之间，图像中没有面部毛发，也没有疤痕或其他明显痕迹。图像中的 730 个人被标记为“罪犯”，或者更确切地说，

　　“……其中 330 人是中国公安部和广东省、江苏省、辽宁省等公安部门公布的犯罪嫌疑人；其他则是由中国一个城市警察部门根据保密协议提供。……在 730 名罪犯中，235 人犯有包括谋杀、强奸、殴打、绑架和抢劫等暴力罪行；其余 536 人被定罪为非法暴力罪行，例如盗窃、欺诈、腐败、伪造和敲诈勒索罪。”

　　其他 1126 张人脸图像则是：

　　“使用网络爬虫从互联网获取的非犯罪分子头像，覆盖广泛的专业和社会地位，包括服务员、建筑工人、出租车和卡车司机、房地产经纪人、医生、律师和教授；……大约有一半的人拥有大学学位。”

　　需要特别强调的是，所有这些人脸图像都来自政府颁发的身份证——这些被视为“犯罪分子”的图片不是犯罪现场照片。

　　吴和张用这些带标签的样本做监督学习。他们训练计算机看一张脸像，并产生一个“是/否”的回答：这个图片上的人属于“罪犯”组还是“非犯罪分子”组？他们使用了４种不同复杂程度的机器学习技术，也就是参数数量多少不同，更复杂的技术具有更多的参数，因此能够学会图像中细微的关系。其中，一个不太复杂的技术使用自定义代码对图像进行预处理，提取特定已知面部特征的位置（如眼睛和嘴角），然后使用较旧（older）的方法学习与这些面部特征位置相关的模式。作者还使用了 AlexNet，其架构与 ChronoNet 类似。AlexNet 是最现代化的模型和参数最多的 CNN 之一，性能也十分强大，分类精度高达近 90%。不过，即使使用较老的方法，论文给出的精度也远高于 75%。

　　这带来了几个问题，也许第一个就是“这可能是真的吗？”更确切地说，

这些数字是否可信？

机器学习学到的是什么？

这与犯罪行为和刑事判决有什么关系？

　　可能的假象

转载请注明出处。