Jun, 2024

MoreHopQA: 超越多跳推理

TL;DR将现有的多跳数据集从抽取性答案转变为生成性答案,通过添加常识、算术和符号推理等问题层次,我们创建了一个新的多跳数据集 MoreHopQA,以评估五个大型语言模型,并发现相较于以往的数据集,我们的数据集更具挑战性,其中部分问题分解的分析表明虽然模型可以正确回答问题,但只有某个部分实现了完美推理。