利用AI“看面相”预测犯罪倾向？谷歌研究员两万字批驳(3)_

　　要看准确率高达 90% 是个什么概念，我们来对比另外一篇论文。计算机视觉研究人员 Gil Levi 和 Tal Hassner 在一篇精心控制的 2015 年论文中发现，具有相同架构的卷积神经网络（AlexNet）在推测快照中人脸性别[5] 时的准确率只有 86.8%[6]。另外，吴和张在论文中声称基于 CNN 方法的“假阳性”（即将“非罪犯”误识别为“罪犯”的错误率）只超过 6% 一点点。新的研究显示，药物检测一般会在 5% 至 10% 的病例中产生假阳性结果，10% 至 15% 的病例中为假阴性。

　　我们认为论文中声称的准确度高得有些不切实际。一个技术问题是，少于 2000 个样本实际上是不足以训练和测试像 AlexNet 这样的 CNN 而不会过拟合的。论文采用较旧的非深度学习方法给出的较低的准确率（其实还是很高了）可能更为真实。

　　还应该注意，作者无法可靠地推断出他们从网络获取的身份证图像都是“非犯罪分子”的；如果我们假设这些人是一般人群中抽取的随机样本，根据统计学，其中一部分人也可能从事犯罪活动。

　　另一方面，论文中使用的数据集都是来自 18 只 55 岁的男性，这可能也有问题，因为法官在判决时可能会首先考虑排除年龄偏见。

　　同样，论文中所示的 3 个“非罪犯”图像（见下文）中都穿着白领衬衫，而另外 3 名被判别为“罪犯”的都没有。当然，只有 3 个例子，我们不知道这是否代表整个数据集。但是，我们知道，深度学习技术是强大的，并且能够学会所有接收到的线索，正如 ChronoNet 除了图像内容的不同之外，还提取了细节，如胶片颗粒度。

　　机器学习不会区分因果关系和偶然的相关性。

　　机器学习究竟学到了什么？

　　排除可能会影响论文所声称准确度的技术错误和混淆，图像中捕获的人脸外观与“罪犯”组中的成员之间可能确实存在相关性。这些被称为“罪犯”的人脸部有什么独特的特征吗？

　　吴和张使用了各种技巧对此作了详细的探讨。对于较为简单的机器学习方法，其中会测量标准面部标记（landmark）之间的关系，这是特别容易的。他们总结说，

　　“……犯罪分子从两边嘴角到鼻尖的角度 θ 平均值比非犯罪者的平均值要小19.6%，差异较大（has a larger variance）。而且，犯罪分子的上唇曲率 ρ 平均比非罪犯大 23.4%。另一方面，犯罪分子内眼角之间的距离 d 比非犯罪分子略窄（5.6%）。”[7]

　　关于这一点，我们可以从论文中的配图得到直观的了解。下图是论文中的图1，上面一排是“罪犯”，下面一排则是“非犯罪分子”。

　　利用AI“看面相”预测犯罪倾向？谷歌研究员两万字批驳

　　上排是“罪犯”，下排是“非犯罪分子”。上排的人脸表情皱着眉头（frowning），而下排没有。深度学习系统可能会“学会”这样表面的区别。

　　论文作者只公开了上面这 6 个例子，这也有可能是故意挑选的。我们也做了随机调查（包括中国和西方国家的同事），如果必须在二者中选择一组，很多人也认为下面一排的 3 个人是罪犯的可能性小一些。一方面，尽管作者声称对面部表情做了控制，但是底部 3 张图像似乎都是显得在微笑的，而上排的 3 个人则似乎是皱着眉头。

　　如果这 6 幅图像确实是典型的样本，那么我们怀疑让一名人类法官将图像从微笑到皱眉来排个序，也可以很好地将“非罪犯”与“犯罪分子”区别开来。后面我们会阐述这一点。

　　人类又从中发现了什么？

　　值得强调的是，在这种（或任何）机器学习应用中没有超人的魔力。虽然非专家只能大概估计一张照片的拍摄年代，但大多数人[8]在识别人脸方面都非常敏感。我们能一眼就从比较远的距离认出自己熟悉的人，而且这样的人可能有成百上千个，注意到别人的凝视和表情的细微差别，并且所有这些都在十分之一秒内完成。[9]

　　吴和张并没有声称他们的机器学习技术在识别人脸面部细微特点（cue）方面，比不需要计算机辅助的普通人要强。不过，他们将其工作与 2011 年在心理学期刊发表的一项研究（Valla 等人，基于面部外观推断犯罪分子的准确性［The Accuracy of Inferences About Criminality Based on Facial Appearance］）联系在一起，那篇论文也使用人类的判断得出了类似的结论：

　　“……研究人员给实验参与者展示了一组罪犯和非罪犯的头像，这些图片都控制了性别、种族、年龄、吸引力和情感表现之后，也消去了任何显示图片来源的线索，结果表明，实验参与者都能够可靠地区分这两个群体。”

　　虽然吴和张使用的身份证 ID 照片而不是犯罪嫌疑人照片（mugshot），我们应该注意，Valla 等人的论文（尽管他们声称已经对摄影条件做了控制），作者比较的是被定罪人的照片和在校园里拍摄的学生的照片。可以认为，被捕后身处威胁和侮辱性的环境中，那时所拍摄的照片看起来与在大学校园里拍摄的照片看上去不同，因而论文的结论也值得商榷。

　　吴和张也将他们的工作与 2014 年心理学期刊 Psychological Science 发表的一篇论文（Cogsdill 等人，从人脸推断性格：关于发育的研究［Inferring Character From Faces: A Developmental Study］）联系起来。这篇论文的其中一位作者就是我们中的一个人。这篇论文发现，即使是 3 岁到 4 岁的孩子，也能准确地区分“善意”（nice）和“不友好”（mean）的脸部图像。但关键是，没有人声称这些这些印象与一个人的性格有关。本文研究的是在人类发育早期对人脸表情类型（facial stereotype）的识别，使用的也是将这些不同类型的表情可视化的照片。［译注：这里指实验中使用的是心理学研究中常用的代表不同表情的人脸照片。］

　　所谓“友善”和“不友善”的脸看起来是什么样子？过去 10 年有关人脸表情社会感知的研究表明，人对一张脸的印象可以浓缩到一些基本层面，包括强势（dominance）、吸引力（attractiveness）和价值（valence，与“值得信赖”、“外向”等积极评价有关）。科学家开发了各种方法，将这些维度上的典型面部表情可视化。其中一种是，让实验参与者评判随机合成的面孔，是否可靠（trustworthy）和强势（dominance）。由于合成的人脸是根据不同面部特征的相对大小或位置得出的统计模型，所以可以计算出代表“值得信赖”或“不可信任”的人脸的平均特征；对于白人男性，可靠与不可靠的脸分别看起来像这样：

　　利用AI“看面相”预测犯罪倾向？谷歌研究员两万字批驳

　　图4. 根据儿童和成人的判断，典型的“友善”（左）和“不友善”的人脸

　　看起来“不值得信任”的脸与吴和张论文中“罪犯”的脸（图3）看起来相似。

　　客观的谬误

转载请注明出处。