EMNLPOct, 2022

随着更大的模型和更长的训练,词汇泛化能力提高

TL;DR该研究分析了自然语言推理、释义检测和阅读理解中词汇重叠启发式的使用,发现更大的模型较不容易采用词汇重叠启发式,并且更长的训练会导致模型放弃使用词汇重叠启发式,最后提供证据表明模型大小差异的根源在于预训练模型。