Oct, 2022

RoMQA: 鲁棒性、多证据、多答案问答基准

TL;DRRoMQA是第一个鲁棒、多证据、多答案问答基准测试,它基于Wikidata知识图谱的相关限制生成问题集群,并通过测量每个问题集群中的最坏性能来评估QA模型对各种限制的鲁棒性。与先前的QA数据集相比,RoMQA具有更多需要对更多证据文本进行推理的人类编写问题,并且平均有更多正确答案。此外,人类注释员评价RoMQA问题更自然或更有可能被人们问到。