AAAINov, 2019

评估预训练语言模型中的常识

TL;DR本研究考察了 GPT、BERT、XLNet 和 RoBERTa 等四个基于预训练语言模型的通感知能力,通过在七个具有挑战性的基准测试中测试他们,在促进模型通感知能力方面,语言建模及其变体是有效的目标,而双向上下文和更大的训练集是额外的加分项。此外,我们发现目前的模型在需要更多必要推理步骤的任务上表现不佳。最后,我们通过制作相关的双重测试用例来测试模型的鲁棒性。有趣的是,模型在这些测试用例上表现混乱,这表明它们只是在表面上学习通感知而不是深层次的知识。我们公开了一个名为 CATs 的测试集,以供未来的研究使用。