Oct, 2023

评估结果的有效性:评估组成性基准测试的一致性

TL;DR近年来,NLP 模型取得了巨大的进展,尤其是通过这方面的大量数据集进行性能评估。然而,有关特定数据集设计选择可能如何影响我们对模型能力的结论仍存在问题。本研究在组合泛化领域调查了六种建模方法在 4 个数据集上的表现,这些数据集根据 8 种组合分割策略进行划分,总计有 18 种组合泛化划分。我们的结果表明:i) 尽管所有数据集都设计用于评估组合泛化能力,但它们对建模方法的排名是不同的;ii) 由人类生成的数据集彼此之间更加一致,而与合成数据集之间的一致性较差;iii) 通常来说,数据集是否来自相同源头对于得到的模型排名的预测性更强,而是否保持相同的组合性解释则次之;iv) 数据中使用的词汇项目可以极大地影响结论。总的来说,我们的结果表明,在评估流行的评估数据集是否测量其意图时还有很多工作要做,建立更严格的评估标准可能有助于该领域的发展。