利用AI“看面相”预测犯罪倾向?谷歌研究员两万字批驳
2017-05-09 编辑:
编者按:本文来自微信公众号“新智元”(ID:AI_era),内容来源 medium
作者:Blaise Agüera y Arcas, Margaret Mitchell,Alexander Todorov
编译:文菲 张易 弗格森
【新智元导读】 不久前, 上海交通大学的两位研究者发布了一项题为“利用脸部照片自动推断犯罪性”的研究,利用基于有监督的机器学习的方法,根据人的脸部特征预测一个人是否有犯罪倾向,“准确率接近90%”。该研究在国内外引起了广泛的争议。近日,谷歌的几名研究员撰文对这一研究进行了批驳,回顾了机器学习技术的底层运作方式和技术细节,并探讨机器学习等先进技术在融入现实中所遇到的难题和挑战。
任何关心如何确保 AI 技术朝着有利于人类发展的人都是本文的读者
1844 年,意大利南部一个小城镇举办了一场审判会,一个名叫 Giuseppe Villella 的劳工因涉嫌窃取了“5 个里考塔(注释:意大利奶制品,类似凝乳),一块硬奶酪,两块面包……和两只小山羊”,最终被判定为“brigante”(暴匪)。当时,意大利南部正因盗匪和国家暴动陷入恐慌。Villella 于 1864 年在意大利北部帕维亚的监狱中死亡。
Villella 的死亡促使了现代犯罪学的诞生。当时镇里居住的一位名叫 Cesare Lombroso 的科学家和外科医生,他认为“brigante”是一种原始的人,天生容易犯罪。检查 Villella 的遗体后,Lombroso 发现了所谓的“证据”,证实了他的猜想:Villella 头骨枕头上的凹陷让人联想到“野人和猿猴”的头骨特征。
使用精确的测量仪器,Lombroso 记录下了他在 Villella 遗体上发现的更多显示其有精神错乱(derangement)的物理特征,包括“不对称的脸”。Lombroso 写道,犯罪分子“生下来就是罪犯”。他认为犯罪行为是会遗传的,并且在遗传时会带有伴随的物理特征,可以用卡钳和颅骨等仪器来测量[1]。这个想法很自然地证明了他之前的假设,即意大利南部人种相比北意大利人要落后原始许多。
使用人的外观推断其内在特征的做法被称为相面(physiognomy)。虽然在今天相面被认为是伪科学,但在民间一直流传着,可以从某个人的面部和身体特征识别出较差的“类型”的人,这一观点也在不同时期被编入国家法律,为很多行为提供了基础,比如购买土地、禁止移民、证明奴隶制合理,以及将种族灭绝正当化。在实践中,相面的伪科学成为科学种族主义(scientific racism)的伪科学。
人工智能和机器学习的快速发展使科学种族主义进入了一个新的时代。其中,人类行为中存在的偏见也被带入了机器学习模型的开发过程中。无论是有意还是无意,这种通过计算机算法对人类偏见的“洗白”可能会使这些偏见看来是客观的。
最近的一个例子便是,上海交通大学 Xiaolin Wu 和 Xi Zhang 在 2016 年 11 月传到 arXiv 上的论文《使用脸部图像自动推断罪犯》(Automated Inference on Criminality Using Face Images)。吴和张认为,机器学习技术可以预测一个人是否是犯罪分子(不是犯罪嫌疑人),号称准确度几乎 90%,而他们使用的数据仅仅是类似美国驾驶执照上人脸的证件照。虽然该论文没有经过同行评议,但其调查结果激发了一系列新闻报道。[2]
研究界的许多人都认为吴和张的分析在道德和科学上都是有问题的。在某种意义上,这不是什么新鲜事。然而,使用现代机器学习方法(性能强大,但对很多人来说也是神秘的),可以使这些过去的说法看上去有了新的可信度。
在摄像机和大数据无所不在的时代,机器学习相面也可以前所未有的规模得到应用。鉴于社会越来越多地依赖机器学习实现常规认知任务的自动化,开发人员、评论家和用户都迫切需要了解人工智能技术的局限和相面这一伪科学的历史,更何况后者如今还披上了一层和现代技术的外衣。
因此,我们在这里面向广泛的受众撰写了这篇深度文章:不仅对研究人员、工程师、记者和政策制定者,任何关心如何确保 AI 技术朝着有利于人类发展的人都是本文的读者。
接下来,我们将首先回顾机器学习技术的底层运作方式,然后讨论机器学习将如何延续人类的偏见。
如何用机器学习了解图像
计算机可以根据某个人的图片进行计算来分析这个人的身体特征。这是很普通的一个图像问题:计算机程序分析照片、根据照片做出一些决定,然后得出某些有意义的判断(比如说,“这张照片中的人很可能在 18 岁和 23 岁之间”)。
照片和计算机反馈之间的关系由一组参数确定,这些参数会在机器学习的阶段进行调整,这就是“机器学习”的由来。机器学习最常见的方法是监督学习,会使用大量带标记的样本工作,也就是样本图像与每个理想输出都进行配对。当参数设置为随机值时,机器只能纯粹凭运气作出回答;但即使给出了一个随机的起点,人可以慢慢地调整一个或多个参数,并问“这种变化是更好还是更差?”这样,计算机就能自我优化,学习任务。通常的训练项目会涉及数百万、数十亿或数万亿的参数选择,计算机在这个过程中稳步提高完成任务的性能。最终,计算机提高的水平放缓并趋于平稳,根据给定任务的固有困难程度以及机器和数据的局限性,预测准确性可能已经达到了最佳状态。
训练时,要避免的一个情况是过拟合(overfitting)。过拟合就是机器能够记住个别训练样本的正确答案,但不能进行泛化,泛化则是适用于不同的数据。避免过拟合最简单的方法是在验证系统时,使用没有在训练中出现过标记数据集。如果系统在验证时性能和训练时大致相同,那么就可以确信系统真的学会了如何发现数据中的一般模式,而不仅仅是记住了训练样本。这实际上和让学生考试的理由相同,测验时考的都是以前没有见过的问题,而不仅仅是重复在课堂上学到的例子。
每个机器学习系统都有参数——否则就没什么可学习的了。简单的系统可能只有比较少的参数。增加参数数量可以让系统学会更复杂的关系,成为更强大的学习者,输入输出间的关系越复杂,系统错误率就越低。另一方面,更多的参数也让系统能够记住更多的训练数据,因而也更容易产生过拟合。这意味着在参数数量和所需的训练数据的数量之间有一个关系。
现代的复杂的机器学习技术,如卷积神经网络(CNN)有数百万个参数,因此需要大量的训练数据避免发生过拟合。获得足够多带标签的数据来训练和测试系统,通常是机器学习研究者面临的最大的实际挑战。
示例:确定照片拍摄时间