Salesforce研究人员声称新方法减轻了AI模型的性别偏见

2021-11-19 21:27 来源:

打印 放大 缩小

Salesforce和弗吉尼亚大学的研究人员提出了一种减轻字词嵌入中性别偏见的新方法,该词表示法用于训练AI模型以汇总,翻译语言以及执行其他预测任务。该团队表示,纠正某些规律性(如大数据集中的词频)可以使他们的方法在推理之前“纯化”嵌入内容,从而删除可能带有性别的词。

词嵌入捕获了词的语义和句法含义以及与其他词的关系,这就是为什么它们通常在自然语言处理中使用的原因。但是他们因继承性别偏见而受到批评,这种偏见将中性词的嵌入与特定性别联系起来。例如,虽然“辉煌”和“天才”在定义上不分性别,但它们的嵌入与“他”相关联,而“家庭主妇”和“缝纫”与“她”相关联更紧密。

先前的工作旨在通过后处理步骤从嵌入中减去与性别相关的成分,以减少性别偏见。但是,尽管这在某些情况下减轻了性别偏见,但其有效性受到限制,因为性别偏见仍然可以在去偏见后恢复。

Salesforce提出的替代方案-Double-Hard Debias-将嵌入空间转换为表面上无性别的空间。也就是说,它将单词嵌入转换为“子空间”,该子空间可用于找到对干扰了编码性别的频率信息进行编码的维度。然后,在执行另一次消除偏见的操作之前,它会沿此维度“投射”性别成分,以获取修改后的嵌入内容。

为了评估他们的方法,研究人员针对WinoBias数据集对其进行了测试,该数据集由赞成性别定型和反对性别定型的句子组成。(例如,“医生之所以聘请秘书是因为他对客户不堪重负”与“医生之所以聘请秘书是因为她对客户不堪重负。”)性能差距反映了算法系统如何在两个句子组上执行并导致“性别偏见”得分。

研究人员报告说,在保留语义信息的同时,Double-Hard Debias将使用GloVe算法获得的嵌入的偏差得分从15(两种类型的句子)降低到7.7。他们还声称,在旨在对嵌入进行建模的可视化(tSNE投影)上,以使相似的嵌入彼此聚在一起并且相异的嵌入分散开来,与其他方法相比,Double Hard Debias产生的嵌入混合更加均匀。

值得注意的是,一些专家认为无法从词嵌入中完全消除偏见。在慕尼黑工业大学最近的一项荟萃分析中,贡献者声称不存在自然产生的中性文本这样的“东西”,因为单词的语义内容始终与社会的社会政治环境联系在一起。

尽管如此,Salesforce和弗吉尼亚大学的团队认为,他们的技术可测量地减少嵌入中存在的性别偏见。

Double-Hard Debias论文的合著者写道:“我们发现单词频率统计信息的简单变化可能会对用来消除单词嵌入中性别偏见的去偏方法产生不良影响。”“ [我们的方法]减轻了词频功能可能对去偏置算法产生的负面影响。我们认为,提供公平且有用的词嵌入非常重要,我们希望这项工作能激发沿这个方向的进一步研究。”

责任编辑:互联网