COLINGMar, 2024

构造难题之难即使对于大语言模型也因错误原因而被解决

TL;DR我们通过引入具有大量词汇重叠的自然语言推理的小型挑战数据集,从 NLP 的角度出发,展示了 GPT-4 和 Llama 2 在此方面的失败,同时从计算语言学的角度,我们发现一组无法通过表面特征区分的三类形容词结构,进而探索 LLM 对这些结构的理解,在多个方面我们发现它们在区分和理解上存在多种失败,这表明它们未充分代表其含义或捕捉词组中词性的特性。