EMNLPOct, 2023

这不是一个数据集:一个用于挑战大规模语言模型的大规模否定评估基准

TL;DR大型语言模型在理解否定时表现亚优,本研究通过引入一个大规模自动生成的常识知识数据集,涉及到约 40 万个描述性句子,其中大约 2/3 的句子包含否定形式,使用零样本学习方法对现有开源语言模型进行测试,结果表明尽管模型对于肯定的句子有较高准确性,但在否定句子方面存在困难,缺乏深入理解否定的能力。尽管在否定句子上对模型进行微调可以提高其性能,但在处理否定方面仍然存在泛化能力不足的问题,突显出大型语言模型在否定理解和泛化方面仍面临挑战。