Feb, 2024

MRKE: 基于知识编辑的 LLMs 的多跳推理评估

TL;DR利用修改的 HotpotQA 数据集为基础,我们引入了第一个基于新的无与伦比的知识的 LLM 多跳问答评估基准,并注释和评估了形式为子问题和中间答案的推理链,以此促进对 LLM 在多跳问答任务上的可信评估的发展。