EMNLPNov, 2019

通过反事实评估减少语言模型中的情感偏见

TL;DR本文旨在量化并减少语言模型中表现出的情感偏见,该文分析了在给定的条件下(例如写作提示)和语言模型中,引起生成的文本情感发生变化的敏感属性(例如国家名称,职业,性别)的值变化的影响。我们采用公平机器学习文献中的个体和团体公正度量来量化情感偏见,并证明在两种不同的语料库(新闻文章和维基百科)上训练的大规模模型存在相当高的偏见。我们随后提出使用嵌入和情感预测导出的正则化方法,该方法应用于语言模型的潜在表示。该正则化提高了公正度量,同时保持了可比水平的困惑度和语义相似性。