算法偏见检测

发布日期:2019-06-12

    《算法偏见侦探雷锋人工智能技术评论》,随着越来越多的算法不断渗透到社会各个层面,如医疗器械

    算法偏见检测

    根据雷锋的《人工智能科学技术评论》,随着越来越多的算法渗透到社会各个层面,如医疗机构、政府部门,关于算法偏差的讨论也越来越多。本月,《自然》杂志选出了2018年十大最受欢迎的科学特写故事,包括瑞秋·考特兰关于算法偏差的文章。雷锋的《人工智能科学技术评论》对原文进行了如下编辑和整理。

    2015年,一位忧心忡忡的父亲问健康经济学家Rhema Vaithianathan,一个仍然萦绕在她脑海中的问题。

    那天,一小群人聚集在宾夕法尼亚州匹兹堡的地下室听Rhema Vaithianathan解释软件如何解决虐待儿童的问题。每天,这个地区的热线都会接到几十个电话,怀疑附近有儿童处于危险之中,其中一些被呼叫中心工作人员贴上标签进行调查。但是这个系统不能访问所有虐待儿童的案件。Vaithianathan和她的同事刚刚签署了一份价值50万美元的合同,要求他们开发可以帮助解决问题的算法。

    Vaithianathan是健康经济学家,也是新西兰奥克兰理工大学社会数据分析中心的共同主任,他使用下面的例子来说明该算法是如何工作的:例如,一个经过大量数据训练的工具,包括家庭背景和犯罪记录,当收到数据时可以产生风险评分是一个电话。这可以帮助审计师对需要调查的家庭进行标记。

    当Vaithianathan邀请听众提问时,焦虑的父亲站起来发言。他说他曾经吸毒成瘾,并与他们作斗争。社会工作者把他的孩子们从家里带走了。但是目前,他在药物治疗上已经成功了一段时间。当电脑评估他的记录时,他做这些努力来改变他的生活是否毫无意义?换句话说:算法是否不公平地评估他?

    我们能打开人工智能的黑匣子吗?

    Vaithianathan向父亲保证,人们会永远改变,他的努力不会被忽视。但即使在今天,尽管这个自动评估工具已经部署,Vaithianathan仍然在思考父亲的问题。计算机正越来越多地被用于控制可能改变人们生活的决定,包括哪些被指控的罪犯应该被拘留,哪些家庭可能受到虐待的调查,以及“预测性治安”(社区警察应该关注什么)的最新趋势。这些工具可望使决策更加一致、准确和严格。但是这个系统的监管是有限的:没有人知道有多少这样的系统被使用。这些算法的不公平性引起了人们的警惕。例如,在2016年,美国记者认为,用来评估未来犯罪风险的系统将歧视黑人被告。

    纽约大学人工智能社会影响研究中心AI Now Institute的联合创始人凯特·克劳福德(Kate Crawford)说:“我最担心的是我们提出的系统应该能改善这个问题,但是它最终可能使问题恶化。”

    当克劳福德和其他人发出警告时,政府正试图使软件更加可信。去年12月,纽约市议会通过了一项法案,设立了一个特别工作组,对公众分享算法信息提出建议,并调查它们是否有偏见。今年,法国总统埃曼纽尔·麦克伦说,法国将公布政府使用的所有算法。在本月发布的指导中,英国政府呼吁那些在公共部门工作的人要公开、透明和负责。5月底生效的《欧洲通用数据保护条例》(GDP R)也将促进算法问责制。

    Rhema Vaithianathan构建算法以帮助识别潜在的虐待儿童案例

    在这些活动中,科学家们面临着一个复杂的问题:使算法公平到底意味着什么?Vaithianathan和其他为公共机构工作的研究人员正在努力开发负责任和有效的软件。他们必须努力解决自动化工具可能带来偏见或加深现有不平等的问题,特别是如果它们嵌入已经歧视性的社会系统。

    “有一个非常活跃的研究小组,正试图开发从外部审计评估此类系统的方法。”

    犹他大学盐湖城分校的理论计算机科学家Suresh Venkatasubramanian指出,由自动化决策工具引起的公平问题并不是一个新问题。几十年来,人们一直使用精算工具来评估犯罪或信用风险。随着大数据集和更复杂模型的普及,越来越难以忽视它们的伦理影响。”计算机科学家别无选择。我们必须开始这方面的研究。我们不能再忽视算法的公平性,看看会发生什么。

    股权折衷

    2014年,匹兹堡阿勒格尼县人类服务部的官员呼吁就自动化工具提供咨询意见,但他们尚未决定如何使用它们。但是他们知道他们应该对新系统开放。美国国务院数据分析、研究和评估办公室副主任艾琳·道尔顿(Erin Dalton)说:“我非常反对将政府资金用于不告诉社会我们正在做什么的黑箱解决方案。”美国国务院在1999年建立了一个中央数据仓库,其中包含大量的个人信息,包括h.驱逐、心理健康和犯罪记录。道尔顿说,Vaithianathan的团队已经为关注儿童福利做出了很大的努力。

    2016年8月,阿勒格尼家庭筛查工具(AFST)推出。对于每个呼叫热线,呼叫中心工作人员将看到由自动风险评估系统产生的分数(1至20分),其中20分对应于被识别为最高风险的情况。AFST预测,来自高分家庭的儿童最有可能在两年内被带离家园,或被送回县,因为打电话的人怀疑这些儿童受到虐待(县放弃了第二项评价指标,该指标似乎不能准确反映需要进一步调查的案件)。

    杰里米·戈德哈伯-菲伯特,加利福尼亚州斯坦福大学的独立研究员,仍然在评估这个工具。但道尔顿说,初步结果表明,该工具是有帮助的。她说,有了这个工具,呼叫中心工作人员向调查人员提交的案件似乎包含了更多合法关注的例子。电话审计师似乎在类似的情况下做出更加一致的决定。然而,他们的决定并不一定与算法的风险评分相对应;县政府希望将这两个结果更紧密地联系在一起。

    预测警务改革

    随着AFST的部署,道尔顿希望获得更多的帮助,以确定系统是否可能有偏见。2016年,她请匹兹堡卡内基梅隆大学的统计学家Alexandra Chouldchova帮助她分析软件是否歧视特定的群体。Chouldchova之前曾考虑过算法中的偏差问题,并将参与一个引发广泛争论的案例。

    同年5月,ProPublica的记者报道了Broward县法官用来帮助确定被指控犯罪的被告是否应在审判前从监狱释放的商业软件。记者说,该软件对黑人被告有偏见。这个叫做COMPAS的工具产生一个分数,用来衡量一个人在两年内再次犯罪的可能性。

    Propublica小组调查了COMPAS数十万名被告,这些被告是该小组通过公开记录请求获得的。通过比较黑人和白人被告,记者发现黑人和白人被告中“假的”(被判定有罪,实际上是无辜的)的比例严重失衡:黑人被《国际刑事诉讼法》列为高危人群,但事实上他们后来并没有被指控犯罪。

    这个算法是由密歇根州的一家名为Northpoint的公司开发的,该公司认为该工具没有偏见。他们说,COMPAS还可以很好地预测被归类为高风险罪犯的白人或黑人被告是否会再次犯罪(一个“预测性平等”的例子)。乔尔德乔娃很快发现诺森特和普罗布利卡的公平措施遭到了反对。预测奇偶性、相等的假阳性错误率和相等的假阴性错误率都可以作为反映“公平性”的一种方法,但如果两组之间有差异,如白与黑被重新捕获的概率(参见“如何定义公平性”一文),那么在统计中就不可能实现完全的公平。反恐精英。伦敦大学学院(University College.)研究可靠性机器学习的研究员迈克尔·韦尔(Michael Veale)说:“鱼和熊的爪子并非都是!如果你想在一个方面公平,在另一个听起来合理的情况下,你可能不公平。

    如何定义“公平”?

    研究算法偏差的研究人员说,有很多方法来定义公平性,但是这些方法有时是矛盾的。

    想象一下,在刑事司法系统中使用算法对两组嫌疑犯(蓝色和紫色)进行评分,以衡量他们再次被捕的风险。历史数据表明,紫色群体更容易被捕,因此模型将紫色群体中的更多人归类为高危群体(见下图的顶部)。即使模型开发人员试图不直接告诉模型一个人应该被分类为蓝色还是紫色,以避免偏差,这种情况也会发生。这是因为用作训练输入的其他数据可能与蓝色或紫色相关。

    虽然高风险状态不能完美地预测嫌疑犯是否会再次被捕,但是算法的开发者试图使预测公平:对于两组来说,“高风险”意味着在两年内有三分之二的可能性嫌疑犯会再次被捕。(这种公平性被称为预测性平价。)未来的逮捕率可能不会遵循过去的模式,但是在这个简单的例子中,假设它们确实如预期的那样被重新逮捕:蓝色组的十分之三和紫色组的十分之六(以及每组中被标记为高风险的人的三分之二)确实被再次逮捕(参见底部的灰色条)。在下面的图中)。

    该算法满足预测奇偶性(黑白被告是否具有相同的总体风险评分准确性),但仍存在一个问题。在蓝色组中,7人中有1人(14%)被误认为是高危组,而在紫色组中,4人中有2人(50%)被误认为是高危组。因此,紫色人更有可能成为“错误的例子”——被误认为高风险。

    只要蓝色和紫色组再次被捕的概率不同,就难以实现预测性奇偶和相同的假阳性率。从数学上讲,在满足公平性的第三个标准(除了预测性奇偶校验和相同的假阳性率)的同时不可能实现这一点:相等的假阴性率(被识别为低风险但随后被再次逮捕的个体);在上述情况下,紫色和蓝色组的假阴性率完全相同,平均33%。

    一些人认为紫色组的高假阳性率反映了算法的歧视性。但其他研究人员认为,这未必是算法偏差的结论性证据。这种失衡还有一个更深层次的原因:首先,紫色集团可能被不公平地以逮捕为目标。基于过去的数据,该算法可以准确地预测更多的紫色群体成员将被再次逮捕。因此,我们可以假设算法(甚至确认)具有预先存在的社会偏见。

    雷锋注:有关统计悖论的更多信息,请参考著名的统计悖论。第一次听说它的人很可能怀疑生活。

    事实上,从数学的角度来看,定义公平的方法更多:在2月份的一个会议上,计算机科学家Arvind Narayanan发表了一篇题为“21世纪公平的定义和战略”的演讲,指出还有其他方法来定义公平。包括Chouldchova在内的调查ProPublica案件的研究人员指出,尚不清楚“不等错误率是否表明算法存在偏差”。斯坦福大学的计算机科学家沙拉德·戈尔(Sharad Goel)说,这些算法反映了一个事实,即预测一个群体比预测另一个群体更困难。事实证明,这或多或少是一种统计上的错觉。”

    对于某些人来说,ProPublica的案例强调了这样一个事实,即许多组织缺乏寻找和正确评估算法工具的资源。芝加哥大学数据科学和公共政策中心的主任Rayid Ghani说:“如果是这样,这就告诉我们,使用Northpoint的政府机构没有给出算法公平性的明确定义。我认为,政府需要学习和培训如何找到这些系统,如何定义应该衡量算法的指标,以及如何确保供应商、顾问和研究人员提供的系统实际上是公平的。

    阿勒格尼县的经验表明,解决这些问题是多么困难。Chouldchova被邀请在2017年初开始研究Allegheny的数据,她发现工具中类似的统计不平衡。她说这个模型有一些“非常不令人满意的特征”。不同种族之间的错误率差异远高于预期。此外,由于未知的原因,被认为受虐待风险最高的白人儿童比被认为受虐待风险最高的黑人儿童更不容易被带离家园。Allegheny和Vaithianathan的团队目前正在考虑换一种型号.这可能有助于减少不公正。

    虽然统计不平衡是一个有待解决的问题,但在算法中存在更深层次的不公平(这可能加剧社会不公平)。例如,像COMPAS这样的算法可能被设计用来预测未来犯罪活动的可能性,但是它只能依赖于可测量的模式:例如逮捕。警察实践中的差异可能意味着一些社会团体更有可能因为其他社会团体所忽视的犯罪而被捕。总部设在华盛顿特区的非营利社会正义组织Upturn的执行董事大卫·罗宾逊(David Robinson)说:“即使我们精确地预测一些案件,我们也许不公平地对待一些人,同时也可能精确地预测他们。”这在很大程度上取决于法官依赖这些算法做出决定的程度,而我们所知甚少。关于。

    新泽西州卡姆登的警察使用自动化工具帮助确定哪些地区需要巡逻。

    阿勒格尼的工具也受到了类似的批评。作家和政治学家弗吉尼亚·尤班克斯(Virginia Eubanks)认为,不管算法是否准确,都是基于有偏见的输入,因为热线更可能提到黑人和混血家庭。此外,由于Allegheny模型中模型依赖于公共服务信息,并且使用这种服务的家庭通常很贫穷,因此该算法将更严格地检查较贫穷的家庭,从而使得它们更加不公平。道尔顿承认现有的数据是我们必须面对的一个约束,但是她相信人们仍然需要这个工具。阿勒格尼县今年早些时候在AFST上回应Eubanks时说:“贫穷,一个不幸的社会问题,并不否认我们有责任“提高我们对需要我们照顾的儿童的决策能力”。

    透明度及其局限性

    虽然一些组织已经建立了自己的工具或商业软件,但学者们发现他们在公共部门算法方面的工作有很大的市场需求。在芝加哥大学,加尼一直在与包括芝加哥公共卫生部在内的一系列机构合作,开发一种工具,用于预测哪些家庭可能藏匿有害健康的铅。在英国,剑桥大学的研究人员与杜伦县警方合作,开发了一个模型,帮助他们确定谁可以干预,以替代起诉。戈尔和他的同事们今年成立了斯坦福大学计算政策实验室,该实验室与政府机构合作,包括旧金山地区检察官办公室。地区检察官办公室的分析师玛丽亚·麦基认为,与外部研究人员的合作至关重要。我们都知道什么是正确的,什么是公平的,但是我们通常没有工具或研究来确切和明确地告诉我们如何实现这个目标。

    人们强烈希望提高案件的透明度,这符合阿勒格尼的做法。阿勒格尼县联系了利益攸关方,向记者敞开了大门。AI Now Institute的Crawford说,当算法是“不能被算法审计、审查或辩论的闭环”时,它们常常加剧问题。但是如何让算法更加开放还不清楚。加尼认为,仅仅公布模型的所有参数并不能解释其工作机制。透明度也可能与隐私保护相冲突。在某些情况下,泄露过多的关于算法如何工作的信息可能会导致敌对者对系统的攻击。

    戈尔说,问责制的一个主要障碍是,这些机构通常不收集有关他们如何使用这些工具或表现的数据。很多时候没有所谓的透明度,因为没有可以共享的信息。例如,加州立法机关起草了一项法案,寻求风险评估工具,以帮助人们减少被告交保释金的机会,该法案因惩罚低收入被告而受到批评。戈尔希望,该法案将强制收集关于法官不同意使用该工具支持案件的原因的数据,以及每个案件的细节,包括判决结果。”我们的目标是在维持公共安全的同时从根本上减少监禁,所以我们必须知道它是否有效。

    Crawford说,我们需要一系列的“正当程序”基础设施来确保算法的可靠性。今年4月,AI Now研究所为希望可靠地采用算法决策工具的公共机构开发了一个框架;此外,它还呼吁社区提供咨询,并呼吁人们反对他们的决定。

    人工智能研究的盲点

    许多人希望法律能够执行这些目标。康奈尔大学人工智能伦理和政策问题研究员Solon Barocas说,实际上有一些这样的先例。在美国,一些消费者保护法赋予公民在做出不利于评估公民信用的决策时解释的权利。维尔说,早在20世纪70年代,法国就赋予公民解释权和通过立法质疑自动裁决的权利。

    最大的考验将是5月25日生效的欧洲GDP R。某些条款(例如获得关于自动决策案例中所涉及的逻辑的有意义的信息的权利)似乎促进了算法问责制。但是英国牛津互联网研究所的数据伦理学家布伦特·米特尔斯塔特(Brent Mittelstadt)说,对于那些想评估算法公平性的人来说,GDP R实际上可能创造一个“法律雷区”,实际上会妨碍算法的公平性。测试一个算法是否以某种方式有偏见(例如,它是否会歧视一个种族而歧视另一个种族)的最好方法是理解系统中涉及的人员的相关属性。然而,Mittelstadt说,国内生产总值R对于使用这些敏感数据是如此的限制,并且罚款如此之高,以至于能够评估算法公平性的公司可能没有处理这些信息的动机。”这似乎限制了我们评估算法公平性的能力。

    GDP R法的适用范围也存在一些问题,使得公众对算法有了一定的了解,引起了公众的关注。如前所述,一些GDP R规则只适用于完全自动化的系统,这可以排除“算法对决策有一定的影响,但最终的决定取决于人”的情况。Mittelstadt说,这些细节最终应该在法庭上得到澄清。

    审计算法

    同时,研究人员正在推进检测算法中尚未接受公众审查的偏见的策略。巴罗卡说,公司可能不愿意讨论如何解决股权问题,因为这意味着首先要认识到自己的股权问题。即使他们这样做了,他说,他们基于算法的行为中的偏见可能得到改善,但他们不会从根本上消除这些偏见。”因此,任何关于这个问题的公开声明都不可避免地承认这个问题仍然存在。”但是最近几个月,微软和Facebook都宣布他们将开发工具来检测算法偏差。

    一些研究人员,包括波士顿东北大学的计算机科学家Christo Wilson,正试图从外部揭示商业算法的偏见。例如,Wilson创建了声称正在寻找Uber出租车的虚拟乘客,并在求职网站上发布了虚拟简历以测试性别偏见。其他人正在开发软件,他们希望这些软件能够广泛用于自我评估。今年五月,加尼和他的同事们发布了一个名为Aequitas的开放源码软件,帮助工程师、决策者和分析家检查机器学习模型中的偏见。数学家凯茜·奥尼尔(Cathy ONeil)一直强调使用算法做决策的危险。她创立了一家公司,与公司私下合作,审查算法的公平性。

    一些研究人员已经开始呼吁退后一步,不再把注意力集中在刑事司法应用和其他领域的预测算法上。例如,一个工具可能擅长预测谁不会出庭,但是最好问问他们为什么不会出庭。也许他们应该设计一些干预措施,比如文本警报或交通援助,这样可以增加他们出庭的机会。纽约大学法学院的民权律师和种族正义倡导者文森特·南特兰德说:“这些工具通常帮助我们做一些小的修改,但是我们需要的是全面的改变。”他说,关于算法健壮性的激烈辩论“迫使我们所有人去问和回答这些关于s.我们正在使用的系统以及它们是如何工作的”。

    Vaithianathan现在将她的虐待儿童预测模型扩展到科罗拉多州的Douglas和Larimer县。她认为构建更好的算法是有价值的(即使它们嵌入的整个系统都有缺陷),也就是说,“算法不能被严格地嵌入这些复杂系统中”。她说,必须在了解特定应用程序的更广泛背景的专家的帮助下实现它们。但是即使是最好的工作也面临着挑战。她说,在没有直接答案和完美解决方案的情况下,提高算法的透明度是最好的选择。”我总是说:如果你不能完全正确,就让自己诚实一点。”

    通过自然