大众的认知中,人工智能的决策都是绝对理性与客观的,因为我们知道背后驱使它的是冷冰冰却比千言万语更接近事实的数据,然而,近期专家发现,人工智能其实也会带着有色眼镜去看人。
据国外媒体报道,斯坦福大学的一项研究显示,亚马逊、苹果、谷歌、ibm和微软的语音识别系统存在种族差异,在白人用户中出现的错误,要比在黑人用户中少得多。
研究显示,这五大科技公司的语音识别系统在白人中错误识别单词的概率为19%。而在黑人用户中,则提升至35%。此外,大约2%的白人音频片段被这些系统认为是不可读的。而在黑人用户中,这一比例却高达20%。
美国国家标准与技术研究所(nist)也曾测试了两种最常见的人脸识别算法,得出了四点结论:
1. 在一对一匹配中,大多数系统对亚裔和非裔美国人比对白人面孔的假阳性匹配率更高,有时是10倍甚至100倍。
2. 这种情况在亚洲国家发展的人脸识别算法中有所改变,在亚洲和白人之间,假阳性的差异非常小。
3.美国开发的算法始终不擅长匹配亚洲、非洲裔美国人和美洲原住民的面孔。美国原住民得到的是错误率最高。
4. 在一对多的配对中,非裔美国女性的假阳性率最低,这使她们被错误指控犯罪的风险最高。
事实上,早在2015年就已经存在计算机视觉技术犯错的例子,表明人工智能技术存在对女性和有色人种的偏见,实例包括google 等科技业巨头所提供的高人气网络服务,google 照片应用程序(google photos app)被发现将非裔美国人标记为「大猩猩」,谷歌曾也为此进行公开道歉。
在探讨如何消除人工智能的不客观之前,我们先来看看ai的有色眼镜到底从何而来。
数据是“罪魁祸首”
现阶段让ai提升认知世界能力的最有效途径仍然是监督学习,而目前ai算法能学习的数据,几乎全部都是通过人力逐一进行标注而得来的,数据集质量的高低直接决定最终模型的效果。
数据标注者通常是人类,而人类是“复杂”的生物。这也是导致ai产生偏见的一个主要因素,大多数机器学习任务都是使用大型、带标注的数据集来训练,ai会基于开发者提供的训练数据推断出规律,再将规律套用在某些资料中。
打个比方,在人脸识别应用中,如果用于训练的数据里白人男性比黑人女性更多,那白人男性的识别率将会更高。
导致ai产生偏见另一个原因可以归于算法本身,一个常见的机器学习程序会试图最大化训练数据集的整体预测准确率。
有缺陷的算法还会造成恶性循环,使偏见越发严重。例如谷歌翻译,会默认使用男性代词,这是因为英语语料库中男性代词对女性代词的比例为2:1。
算法的原则是由ai自行进行学习,乍看之下很有效率。不过,一但提供的资料不够全面,或开发者没有想方设法避免歧视,ai推导出的结果便很容易带有偏见。
ai并不理解“偏见”
偏见这个词是人类创造的,也是人类定义的,ai并不能理解偏见的含义。
机器学习的方法会让ai带上了有色眼镜,但是改变 ai 学习的方式也不是好的解决方式。
或许我们应该从自己身上找找原因,毕竟导致ai产生偏见的原因,有部分要归咎于他们所使用的语言。人们需要弄清楚什么是偏见,以及偏见在语言中的传递过程,避免这些偏见在日益强大的 ai 应用中更大范围的传播。
前微软副总裁沈向洋博士曾在公开课《打造负责任的ai》中指出:“人工智能已经开始做出人类无法理解的决定了,我们需要开启人工智能的黑箱,了解ai做出决定背后的原因。”
算法之所以会对人类进行区别对待,原因在于训练算法用的基准数据集通常是来自新闻和网页的数据,就存在着由语言习惯造成的“性别偏见”,算法也自然“继承”了人类对这些词汇理解的性别差异。
ai技术距离完全消除技术偏见还有很长的一段路,但各大巨头也已经在技术层面做出努力。
谷歌开源了一项名为“what-if tool”的探测工具,ibm将研发的偏见检测工具—ai fairness 360 工具包开源,包括超过 30 个公平性指标(fairness metrics),和 9 个偏差缓解算法,研究人员和开发者可将工具整合至自己的机器学习模型里,检测并减少可能产生的偏见和歧视。
写在最后
人类的行为是收到外界影响的,而这种语言传统中出现的偏见,是在人文历史中不断加深嵌入的,在“偏见”通过代码传播之际,我们必须弄清楚,是否简单的语言学习就足以解释我们观察到传播中出现的偏见。
最重要的是大众需要了解“偏见”从何而来,从而在社会中消除这种不文明的“偏见”。