ACLMar, 2021

针对自然语言理解模型的捷径学习行为进行解释和缓解

TL;DR本文研究表明,NLU 模型倾向于依赖于快捷特征进行预测,而不是真正理解语言。我们发现 NLU 训练集中的单词可以被建模为长尾分布,进一步提出了一种量化每个训练样例快捷程度的方法,并基于此提出了一个缓解快捷特征对模型训练的影响的框架 LTGR,实验结果表明这种方法可以提高模型对 OOD 数据的泛化能力,同时保持在分布数据上的准确性。