Feb, 2024
MiMiC: 在表示空间中最小修改的反事实论证
MiMiC: Minimally Modified Counterfactuals in the Representation Space
Shashwat Singh, Shauli Ravfogel, Jonathan Herzig, Roee Aharoni, Ryan Cotterell...
TL;DR语言模型中的性别偏见和有毒语言等不良行为可以通过干预技术在表示空间中进行干预以减轻问题,本文提出了一种生成表达丰富的反事实干预方法以消除偏见和有毒语言,并在多类分类中显示了其有效性和优于强基准的性能。