Jun, 2024
朝向稳健评估:大语言模型时代开放领域问答数据集和度量的综合分类
Towards Robust Evaluation: A Comprehensive Taxonomy of Datasets and
Metrics for Open Domain Question Answering in the Era of Large Language
Models
TL;DR本研究通过对52个数据集和20种评估技术进行综述,详细研究了当前开放域问题回答领域的现状,提出了一种包含问题类型的多模态数据集新分类法,并对评估指标进行结构化整理和批判性分析,旨在为现代问答系统的强大评估提供框架,并指出了当前的挑战和未来研究发展的有希望的方向。