Feb, 2024

「胶带也无法修复」:编辑语言模型中的偏见和错误信息

TL;DR模型编辑是一种成本效益高的策略,用于更新存储在语言模型中的知识。然而,模型编辑可能在应用编辑后产生意想不到的后果:与编辑无关的信息也可能被改变,并且模型的其他一般行为也可能被错误地改变。本研究调查了模型编辑方法如何意外地放大模型的偏见,并引入了一个新的基准数据集 Seesaw-CF,用于衡量模型编辑对偏见相关伤害的影响,并对不同的权重编辑方法如何影响模型偏见进行了全面调查。具体地,我们关注与种族、地理起源和性别等人口属性相关的偏见,以及经过编辑的语言模型生成的长篇文本的定性缺陷。我们发现,经过编辑的模型在对亚洲、非洲和南美洲等对象的属性越不自信时,更倾向于表现出不同程度的偏见行为。此外,经过编辑的模型在生成文本时放大了性别歧视和排外情绪,同时仍然表现得似乎连贯且合乎逻辑。最后,编辑关于出生地、公民国籍或性别的事实对模型对类似职业的不相关特征的了解产生特别负面影响。