Nov, 2023

WorldSense:大型语言模型中基于实例推理的合成基准测试

TL;DR我们提出了 WorldSense,这是一个用于评估 LLMs 在从简单实体排列的描述中进行简单推理时所能维持的隐式世界模型的程度的基准测试。我们在三个最先进的聊天 LLMs(GPT3.5,GPT4 和 Llama2-chat)上运行我们的基准测试,并显示这些模型在只有三个对象时也会出错。此外,它们具有相当大的响应偏差,无论问题如何,它们都更喜欢特定的响应。错误甚至在思维链提示和上下文学习中仍然存在。最后,我们展示了虽然在类似问题上进行微调确实带来了可观的改进 —— 在内部和超出分布范围内 —— 但是微调的模型并没有超越约束问题空间的普适性。