Jun, 2024

朝向稳健评估:大语言模型时代开放领域问答数据集和度量的综合分类

TL;DR本研究通过对 52 个数据集和 20 种评估技术进行综述,详细研究了当前开放域问题回答领域的现状,提出了一种包含问题类型的多模态数据集新分类法,并对评估指标进行结构化整理和批判性分析,旨在为现代问答系统的强大评估提供框架,并指出了当前的挑战和未来研究发展的有希望的方向。