深度学习可以更好地从图像中提取细微的信息差别,而不是简单的特征测量,如面宽比。但是,正如我们所指出的,它不是魔法。上面讨论的许多论文都对人类法官使用了双盲试验,正是因为人类对脸部感知任务非常擅长。深度学习不能提取不存在的信息,我们应该怀疑它能可靠地从人类法官都参不透的图像中提取隐藏的意义。
判决
在过去的几年中,我们看到越来越多的人关注长期存在的大规模监禁问题。虽然美国占世界人口的5%左右,但占了约25%的全球监狱人口(240万人)。被监禁的人在经济状况和肤色上很不均衡。在美国,作为一名黑人男性,你被监禁的可能性是白人男性的七倍。 [21]这将使得面部图像的种族检测器成为美国“罪犯”相当有效的预测因子——就像 Wu 和 Zhang 在中国做的一样。这是否公平?由于奴隶制和系统歧视的长期影响,美国黑人生活拮据的人数不成比例的高。这本身就与罪犯数量多有关,就像英格兰十九世纪的白人位于经济底层一样。
许多不同的证据表明,黑人更多地被逮捕,更多地被定罪,比犯有同样罪行的白人受到更加严厉处罚。例如,因毒品犯罪的黑人入狱率高于白人的5.8倍,尽管药物使用的流行率相当可观。黑人也要服更长的刑期。最近出版的大规模纵向研究发现,即使是最贫穷的白人儿童,也比最富有的10%的黑人儿童较少去监狱。一旦进入监狱,黑人会受到更为严厉的惩教。法官的种族偏见的直接测试是使用假设的案件进行的,并且对(假设的)黑人被告的判罚越来越严厉,特别是当法官拥有高水平的隐含[22]种族偏见——这在法官当中流行且常见。
像 Wu 和 Zhang 在实验中那样的做法,[23]能否消除法官的隐含偏见呢?
大量研究表明情况恰恰相反。 [24]列举几个例子,2015年,天普大学的布莱恩·霍尔兹(Brian Holtz)发表了一系列实验的结果,其中脸部的“可信度”强烈影响了实验参与者的判断力。具体来说,参与者在阅读一个小片段后,需要决定一个假设的CEO的行为是公平还是不公平的。虽然参与者对判决公平或不公平的判断根据小片段描述的行为而变化,但CEO 简历中使用“值得信赖”或“不可信赖”的面部照片也会对结果产生影响。根据Oosterhof 和Todorov 的2008年的论文,这些照片中的面孔“可信度”有高低之分。在另一项研究中,参与者和他们自认为是真实的合作伙伴玩了一个在线投资游戏,这些合作伙伴的面孔“值得信赖”或“不可信赖”。参与者更有可能投资“值得信赖”的合作伙伴,即使有关于合作伙伴过去投资行为的声誉信息也不能影响面孔的影响力。最近一项研究发现,在以一级谋杀罪被定罪的囚犯中,“不可信赖的”面孔被不合比例地判处死刑,而不是无期徒刑。对于被诬告随后被免除起诉的人也是如此。
这反映的并不是内在的似乎能一眼看穿别人的直觉天赋。事实上,有证据表明,在很多情况下,如果忽视面部特征,依靠关于世界的常识,我们将会做得更好。此外,衡量经济行为可信度的研究表明,依靠面部进行判断使我们的决定不仅仅是不太准确。
所以,归纳来说:
在看一张面部照片时,一台机器作为“犯罪检测器”看到的东西,和人类在看到这张肖像时看到的东西并无不同;
在查看“犯罪”和“非犯罪”的脸部图像时,这种检测器可能与负面的感知有关;
产生了犯罪“真实”数据的人类法官本身受到这种“不可信赖”的看法的强烈影响,“不可信”的外观似乎不是实际不可信度的良好预测因素,也不可能是犯罪行为的良好预测因素。
对于碰巧有“不可信”面孔的人来说,这是不幸的。同样不幸的是,Wu 和 Zhang 的实验可能揭示的是,人类判断的不准确和系统的不公平,包括官方作出的刑事判决。而不是通过计算机找到了一个有效和公正的捷径来做出准确的刑事判断:
我们预计未来几年会出现更多的研究,为了洗清人类的偏见而对科学的客观性抱有类似的偏见,提出错误的要求。
反馈循环
“做个穷人很糟糕,觉得自己在某种程度上应该是穷人就更糟糕。你开始相信你的贫穷是因为你的愚蠢和丑陋。然后你开始相信你是愚蠢和丑陋的,因为你是印度人。而且因为你是印度人,所以你开始相信自己注定是穷人。这是一个丑陋的循坏,你无能为力。“
- Sherman Alexie,兼职印度人绝对真实的日记
社会上已经有许多反馈循环为劣势创造了复合效应。在历史上,在与身份相关的种族、残疾和其他类别的背景下,这已经被广泛撰写。
除了 Sherman Alexie 所指出的内在消极情绪的心理重压之外,还有一些重复的、对同一偏见的运用所产生的后果。如果一个人的外表会导致教师怀疑其作弊,同学们避免与其坐在同一个午餐桌上,陌生人避免和他交谈,潜在的雇主不给他/她 Offer,而且警察更频繁地对其“喊停和盘问”,那么长此以往,不出问题才怪。
Wu 和 Zhang 的研究作为警察和安全应用工具,对这一前景,我们认为最令人震惊的是,正如 Faception 公司所做的,它“科学地”将带有社会偏见的训练数据和系统判定之间的关系合法化了。当 Wu 和 Zhang 写下下面的话时,就完全错了。
“与人类考官/法官不同,计算机视觉的算法或分类器绝对没有主观成见,没有情绪,没有来自经验的或种族、宗教、政治派别、性别、年龄等方面的任何偏见,没有精神上的倦怠,不会因为事先没吃好或没睡好就影响判断力。犯罪自动推理消除了元数据准确性(人事法官/审查员的能力)的变数。
这种修辞主张用嵌入相同偏见的机器学习技术来代替有偏见的人类判断,而且认为更可靠。而更糟糕的是,他们认为将机器学习引入到可以增加或扩大人类对犯罪行为判断力的环境中,可以使事情变得更公平。事实上,情况恰恰相反。因为人类会认为机器的“判断”不仅一贯公平,而且与个人偏见无关。因此,他们将以其直觉作为独立佐证,同意其结论。随着时间的推移,它将训练使用它的人类法官,以同样的方式来认识犯罪行为。我们现有的隐含偏见将被合法化、规范化和放大化。我们甚至可以想象,如果后续版本的机器学习算法被算法本身就是动因的犯罪所训练,就会产生失控效应。
转载请注明出处。