ICMLJul, 2022

大型语言模型中选择偏差引起的虚假相关性

TL;DR本文探究了大型语言模型在数据选择偏见下如何学习原本条件独立的变量之间的统计依赖关系。为了验证这个效果,我们创建了一个遮掩性别任务,可以应用于 BERT 系列模型来揭示预测性别代词与一系列似乎与性别无关的变量(如日期和位置)之间的虚假相关性,我们展示了预训练(未经修改的)BERT 和 RoBERTa 大型模型的效果,最后,我们提供了一项在线演示,邀请读者进一步实验。