分析 NLI 模型的组合敏感性

AAAINov, 2018

Analyzing Compositionality-Sensitivity of NLI Models

Yixin Nie, Yicheng Wang, Mohit Bansal

TL;DR本研究通过实验验证，发现多个最先进的 NLI 模型都过度依赖词汇而无法使用组合语义，因此提出了一种可分析自然语言例句中 NLI 模型组成特性的测试设置，并在已有数据集上测试，这种测试设置可以帮助模型更好地了解复杂的含义，并为模型的改进提供机会。

Abstract

Success in natural language inference (NLI) should require a model to understand both lexical and compositional semantics. However, through adversarial evaluation, we find that several state-of-the-art models wit

natural language inference compositional semantics rnns compositionality-sensitivity testing nli models

发现论文，激发创造

语义敏感度与不一致预测：衡量 NLI 模型的脆弱性

通过评估自然语言推理模型对含有微小语义保留表面形式噪声的对抗生成样本的效果，我们提供了证据表明，最新基于转换器的自然语言理解模型对于细微的语义保留有敏感性，这导致了推理过程中明显的不一致性。这种语义敏感性会导致在模型预测中的性能降低 12.92% 和 23.71%。

Jan, 2024

自然语言复合性之悖论：基于神经机器翻译的案例研究

本文探讨了神经机器翻译在自然语言处理中的组合性能力测试及其对真实数据的影响，结果显示需要重新思考神经网络的组合性评估及开发相应基准测试。

Aug, 2021

评估句子嵌入中的组合性

本文介绍了一个新的自然语言推理任务数据集，旨在解决人工智能中的句子组成意思的问题，使用深度神经网络学习语义向量表示法，得出发现表明 Inference 等现有句向量算法性能较差，但使用本文提供的数据集进行训练，可提高测试性能和提高人工智能系统的表现水平。

Feb, 2018

在 NLP 中可视化和理解神经模型

在这篇论文中，我们描述了四种策略，用于可视化 NLP 神经模型中的组合性。我们介绍了三种简单的方法以可视化单元对最终合成表示的影响，并在情感分析方面测试了这些方法，发现 LSTMs 的表现优于简单的递归神经网络。

Jun, 2015

组合性作为词汇对称性

该文章提出了一种基于数据分布的组合建模通用框架，证明了针对具有词汇表和组合函数的任何可分解任务都存在一族数据转换函数，可在训练数据上产生新的、格式正确的例子，进而说明即使在未知组合函数的情况下 (例如无法编写或推断符号语法), 也可以识别这些数据转换并对普通 RNN 和转换器序列模型进行数据增强，在 CLEVR-CoGenT 视觉问答数据集上获得了最先进的结果，在 COGS 语义分析数据集上获得了与专用模型架构相当的结果。

Jan, 2022

自然语言推理模型的行为分析：揭示三个因素对鲁棒性的影响

研究自然语言推理 (NLI) 模型的鲁棒性，特别关注三个因素：不敏感、极性和未见过的词汇。结果发现，所有模型在处理未见过的反义词语上表现都欠佳，并且容易受到单词和标签之间的简单统计相关性的影响。

May, 2018

组合成分分解：神经网络如何泛化？

本研究基于多种语言和哲学理论对构成性的不同解释，提出了五个理论有据的测试方法，用于评估神经语言模型的构成性能力，结果分析了三种常见神经网络结构在高度构成性数据集上的表现和潜在改进方向。

Aug, 2019

神经自然语言推断模型部分嵌入了词汇蕴含和否定理论

本研究通过四种方法评估自然语言推理 (NLI) 模型是否可以学习词汇蕴涵和否定之间的组合交互作用，并提出了一个新的自然数据集 MoNLI，其中集中了词汇蕴涵和否定的相关内容，通过对 MoNLI 的 Fine-tuning 得到的模型相较于通用 NLI 数据集拥有更好的效果，同时对当前表现最佳的 BERT 模型进行探究表明其至少部分嵌入了词汇蕴涵和否定的算法级别理论。

Apr, 2020

具有瓶颈的递归神经网络诊断（非）合成性

本研究使用递归神经网络模型和限制信息传递的瓶颈机制，通过比较有无瓶颈情况下模型对数据的表示，提出了一种衡量复合性的度量标准，并基于此标准实现了一个数据集的复合性排序，应用于算术表达式合成数据和情感分类自然语言数据。

Jan, 2023

评估结果的有效性：评估组成性基准测试的一致性

近年来，NLP 模型取得了巨大的进展，尤其是通过这方面的大量数据集进行性能评估。然而，有关特定数据集设计选择可能如何影响我们对模型能力的结论仍存在问题。本研究在组合泛化领域调查了六种建模方法在 4 个数据集上的表现，这些数据集根据 8 种组合分割策略进行划分，总计有 18 种组合泛化划分。我们的结果表明：i) 尽管所有数据集都设计用于评估组合泛化能力，但它们对建模方法的排名是不同的；ii) 由人类生成的数据集彼此之间更加一致，而与合成数据集之间的一致性较差；iii) 通常来说，数据集是否来自相同源头对于得到的模型排名的预测性更强，而是否保持相同的组合性解释则次之；iv) 数据中使用的词汇项目可以极大地影响结论。总的来说，我们的结果表明，在评估流行的评估数据集是否测量其意图时还有很多工作要做，建立更严格的评估标准可能有助于该领域的发展。

Oct, 2023