Nov, 2023

探索语言模型在文本分类中的概念层次上的伪相关性

TL;DR我们使用语言模型为每个文本标记概念并测量模型在测试数据上的概念偏差,然后提出一种数据再平衡方法来减轻由于训练数据中的不平衡标签分布而引起的虚假相关性,并证明我们的缓解方法在处理文本分类数据集中的标签分布偏差时具有优越性。