May, 2020

语言生成中的可控偏见

TL;DR我们提出了一种通用方法来控制自然语言生成中的社会偏见。通过对特定人口群体进行输入提示的提及,我们开发了一种诱发社会偏见的方法,并对两种情况进行了分析:在一种人口群体中诱发负面偏见,同时在另一种人口群体中诱发正面偏见,并使偏见在不同人口群体之间相等。该方法被证明在减轻偏见过程中是有效的。