Jan, 2024

缩小知识评估差距:多层次答案的开放领域问题回答

TL;DR标准问答评估协议未考虑到答案的多粒度性质,与单一粒度的参考答案进行比较。本研究提出 GRANOLA QA 评估设置,用于多粒度答案的准确性和信息量评估。通过对现有数据集进行改进,建立了 GRANOLA-EQ 多粒度实体问题数据集,并在 GRANOLA-EQ 上评估了一系列解码方法,包括 DRAG 算法。实验证明,大型语言模型在标准解码下往往生成具体但错误答案,而 DRAG 算法在多粒度答案上平均提高了近 20 个百分点的准确性,对于罕见实体进一步提高。总体而言,这表明标准评估和解码方法可能严重低估了语言模型所包含的知识。