ACLMar, 2024

基准透明度:测量数据对评估的影响

TL;DR本文提出了一个自动化框架来测量数据分布对自然语言处理模型性能和评估的影响,并通过两组实验表明数据的分布对评估具有统计学上的重要性,并且可预测模型的泛化能力。