EMNLPOct, 2023

POSQA:使用大小比较来探究 LLMs 的世界模型

TL;DR通过提出 POSQA 数据集,我们研究了最新的大型语言模型的体现性理解,并发现即使是目前最大的语言模型在零样本设置下表现不佳,进一步通过高级提示技术和外部知识增强来提升它们的性能。我们调查了他们对真实世界理解的主要来源以及提示格式的影响,结果表明基于文本数据形成的语言模型对提示的表面形式容易受到欺骗和困惑,导致其与人类行为的契合性降低。