Feb, 2024

MiMiC: 在表示空间中最小修改的反事实论证

TL;DR语言模型中的性别偏见和有毒语言等不良行为可以通过干预技术在表示空间中进行干预以减轻问题,本文提出了一种生成表达丰富的反事实干预方法以消除偏见和有毒语言,并在多类分类中显示了其有效性和优于强基准的性能。