Jun, 2024

DEXTER:使用 LLMs 进行开放域复杂问题回答的基准测试

TL;DR通过建立一个包含多样化复杂问答任务的基准以及提供工具包,在开放领域环境中评估先进的预训练密集和稀疏检索模型,本研究旨在解决开放领域复杂问答中证据检索和推理的挑战。我们观察到晚期交互模型和词汇模型(如 BM25)表现较好,此外,我们还评估了 LLMs 的推理能力以及检索性能对其推理能力的影响,通过实验证实,要改进复杂问答的下游性能,还有很多待办之事。