ACLFeb, 2024

FanOutQA:大型语言模型的多跳、多文档问答

TL;DR通过创建 FanOutQA 数据集以及进行评估测试,研究发现当处理复杂的多文档依赖关系时,当代的语言模型如 GPT-4、LLaMA 2、Claude-2.1 和 Mixtral-8x7B 仍存在推理能力的提升空间。