评估结果的有效性：评估组成性基准测试的一致性

Oct, 2023

评估结果的有效性：评估组成性基准测试的一致性

The Validity of Evaluation Results: Assessing Concurrence Across Compositionality Benchmarks

Kaiser Sun, Adina Williams, Dieuwke Hupkes

TL;DR近年来，NLP 模型取得了巨大的进展，尤其是通过这方面的大量数据集进行性能评估。然而，有关特定数据集设计选择可能如何影响我们对模型能力的结论仍存在问题。本研究在组合泛化领域调查了六种建模方法在 4 个数据集上的表现，这些数据集根据 8 种组合分割策略进行划分，总计有 18 种组合泛化划分。我们的结果表明：i) 尽管所有数据集都设计用于评估组合泛化能力，但它们对建模方法的排名是不同的；ii) 由人类生成的数据集彼此之间更加一致，而与合成数据集之间的一致性较差；iii) 通常来说，数据集是否来自相同源头对于得到的模型排名的预测性更强，而是否保持相同的组合性解释则次之；iv) 数据中使用的词汇项目可以极大地影响结论。总的来说，我们的结果表明，在评估流行的评估数据集是否测量其意图时还有很多工作要做，建立更严格的评估标准可能有助于该领域的发展。

Abstract

nlp models have progressed drastically in recent years, according to numerous datasets proposed to evaluate performance. Questions remain, however, about how particular dataset design choices may impact the concl

nlp models compositional generalization dataset design choices model capabilities evaluation datasets

发现论文，激发创造

测量组合泛化能力：一种基于真实数据的综合方法

本研究提出了一种基于分子分散度最大化和原子分散度最小化的方法去构建实际应用的语言理解数据集，并通过分析三个多层次深度学习架构的表现来量化比较这种方法与其他构建复合语言理解测评基准的方法，研究表明现有的机器学习方法在复合语言理解上处于局限性表现，且都表现出惊人强的负相关性，研究结果可应用于构建和优化大规模自然语言处理应用系统。

Dec, 2019

关于利用翻译数据集评估多语言组合泛化能力

通过翻译 MCWQ 数据集，我们证明不同语言具有不同的组合泛化能力，同时多语种模型仍然难以实现跨语言组成泛化。

Jun, 2023

使用基于分布的组合性评估方法评估机器翻译的组合推广能力

开发一个基于分布的合成性评估框架，利用 Europarl 翻译语料库创建训练集和测试集，测试神经机器翻译系统在未训练依赖关系上的能力。

Nov, 2023

自然语言复合性之悖论：基于神经机器翻译的案例研究

本文探讨了神经机器翻译在自然语言处理中的组合性能力测试及其对真实数据的影响，结果显示需要重新思考神经网络的组合性评估及开发相应基准测试。

Aug, 2021

分析 NLI 模型的组合敏感性

本研究通过实验验证，发现多个最先进的 NLI 模型都过度依赖词汇而无法使用组合语义，因此提出了一种可分析自然语言例句中 NLI 模型组成特性的测试设置，并在已有数据集上测试，这种测试设置可以帮助模型更好地了解复杂的含义，并为模型的改进提供机会。

Nov, 2018

组合成分分解：神经网络如何泛化？

本研究基于多种语言和哲学理论对构成性的不同解释，提出了五个理论有据的测试方法，用于评估神经语言模型的构成性能力，结果分析了三种常见神经网络结构在高度构成性数据集上的表现和潜在改进方向。

Aug, 2019

组合性作为词汇对称性

该文章提出了一种基于数据分布的组合建模通用框架，证明了针对具有词汇表和组合函数的任何可分解任务都存在一族数据转换函数，可在训练数据上产生新的、格式正确的例子，进而说明即使在未知组合函数的情况下 (例如无法编写或推断符号语法), 也可以识别这些数据转换并对普通 RNN 和转换器序列模型进行数据增强，在 CLEVR-CoGenT 视觉问答数据集上获得了最先进的结果，在 COGS 语义分析数据集上获得了与专用模型架构相当的结果。

Jan, 2022

针对对话推荐系统的合成数据集评估

本研究提出对生成模型产生的数据集进行多方面评估的框架，探讨了各种评估方法的优缺点

Dec, 2022

神经模型中组成通用能力的研究

该研究介绍了一个名为 ConceptWorld 的环境，用于生成通过逻辑领域特定语言定义的构成和关系概念的图像。研究测试了标准神经网络和关系网络的泛化能力，并提出了一个潜在的基准模型，以鼓励在构成和关系领域有效泛化的模型的发展。

Jun, 2020

多标签文本分类的组合泛化：一种数据增强方法

通过创建独特的数据集，评估现有多标签文本分类模型对复杂概念的组合泛化能力，在此基础上引入了数据增强方法，利用两种创新的文本生成模型提高分类模型对组合泛化的能力。实验证明，该数据增强方法显著提升了分类模型在我们的基准测试中的组合泛化能力，两种生成模型均超过了其他文本生成基准。

Dec, 2023