Jan, 2024

PUB:用于评估LLMs语用能力的语用理解基准

TL;DRLLMs展示了对语义的出色理解能力,但在理解语用学方面常有困难。为了证明这一事实,我们发布了一个包含四个语用学现象的语用学理解基准(PUB)数据集,即合困推理、预设、参照和指示。我们为每个任务精选了高质量的测试集,包括多选题答案(MCQA)。PUB一共包含28k个数据点,其中6.1k个由我们创建,其余的则来自现有的数据集。我们评估了九个模型,参数数量和训练类型各异。我们的研究表明,对于较小的语言模型, fine-tuning能够显著提升其在遵循指令和聊天方面的语用学能力。然而对于较大的模型来说,基础版本与聊天适应版本的性能相当。此外,人类的能力和模型的能力之间存在明显的性能差距。此外,与人类在各种任务上的一致表现不同,模型在熟练度方面表现不稳定,性能水平因不同提示和任务复杂性而波动。总体而言,这个基准旨在全面评估LLM处理需要语用推理的现实语言任务的能力。