Jun, 2024

modeLing: 用于测试语言模型语言推理的新颖数据集

TL;DR我们介绍了 modeLing,这是一种测试人工智能系统中少样本推理能力的新型 Linguistics Olympiad-style 谜题基准。通过从少数例子中推断一种语言的语法结构的各个方面,解决这些谜题需要一定的推理能力。modeLing 是专门为本研究编写的全新谜题,不会出现在现有 AI 系统的训练数据中,减少了数据泄漏对推理评估的潜在混淆因素。通过在我们的基准测试中评估多个大型开源语言模型和 GPT,我们观察到相当高的准确性,表明具备少样本新兴推理能力,不能仅归因于浅层记忆。然而,不完美的模型表现表明 modeLing 可以用来衡量语言推理的进一步进展。