Jun, 2024

ACCORD: 缩小常识可测性差距

TL;DR通过受控的多跳反事实,我们提出了一个框架和基准套件 $ exttt {ACCORD}$,用于解开大规模语言模型(LLMs)的常识基础和推理能力。通过引入形式化元素到常识推理中,$ exttt {ACCORD}$ 可以明确控制和量化推理复杂性,超越典型的 1 或 2 跳。基准测试最先进的 LLMs(包括 GPT-4o(2024-05-13)、Llama-3-70B-Instruct 和 Mixtral-8x22B-Instruct-v0.1)显示性能仅随着适度扩展而降至随机机会,为改进留下了充足的余地。我们公布了此工作中测试的基准套件的排行榜,以及用于自动生成更复杂基准测试的代码。