偏见的另一个来源是不完整或不具有代表性的信息。一个著名的例子是面部识别。如果我主要使用白人男性的照片来训练机器学习面部识别那么机器在识别有色人种和女性方面将表现不佳。在我们的文章中我们实际上关注第三种类型即使用于训练算法的数据是无偏见且具有代表性的人的受保护属性与其数据中捕获的行为或特征之间也可能存在相关性这可能导致有偏差的结果。莱恩你能举个例子吗以色列假设与其他群体相比女性更有可能购买红色手机壳。
现在我决定在训练算法来预测
某些事情时排除性别以防止出现任何有偏见的结果。的颜色那么我本质上是在使用这个人是女性的代理。然后当算法使用案例 疾病邮寄名单 的颜色来决定雇用谁或给谁折扣时算法可能会偏向拥有红色案例的群体这意味着它不成比例地偏向女性尽管已从数据中删除了性别信息。而且作为决策者我们可能不想这样做。
大多数算法本身不会产生偏差
但由于规模的原因往往会加剧偏差。这变得非常有问题。如果问题出在数据中那么是算法造成了偏差还是已经存在偏差了而且是故 通辽电话号码表 意的吗大多数算法本身不会产生偏差但由于规模的原因往往会加剧偏差。这变得非常有问题。想想阿耶莱特提到的三种来源。第一种算法偏差采用预先存在的人类决策并使该过程自动化。因此现在您可以让数百万台机器做出系统性有偏见的决策而不是少数人做出决策。