通过评估自然语言推理模型对含有微小语义保留表面形式噪声的对抗生成样本的效果,我们提供了证据表明,最新基于转换器的自然语言理解模型对于细微的语义保留有敏感性,这导致了推理过程中明显的不一致性。这种语义敏感性会导致在模型预测中的性能降低 12.92% 和 23.71%。
Jan, 2024
本文探讨了神经机器翻译在自然语言处理中的组合性能力测试及其对真实数据的影响,结果显示需要重新思考神经网络的组合性评估及开发相应基准测试。
Aug, 2021
本文介绍了一个新的自然语言推理任务数据集,旨在解决人工智能中的句子组成意思的问题,使用深度神经网络学习语义向量表示法,得出发现表明 Inference 等现有句向量算法性能较差,但使用本文提供的数据集进行训练,可提高测试性能和提高人工智能系统的表现水平。
Feb, 2018
在这篇论文中,我们描述了四种策略,用于可视化 NLP 神经模型中的组合性。我们介绍了三种简单的方法以可视化单元对最终合成表示的影响,并在情感分析方面测试了这些方法,发现 LSTMs 的表现优于简单的递归神经网络。
Jun, 2015
该文章提出了一种基于数据分布的组合建模通用框架,证明了针对具有词汇表和组合函数的任何可分解任务都存在一族数据转换函数,可在训练数据上产生新的、格式正确的例子,进而说明即使在未知组合函数的情况下 (例如无法编写或推断符号语法), 也可以识别这些数据转换并对普通 RNN 和转换器序列模型进行数据增强,在 CLEVR-CoGenT 视觉问答数据集上获得了最先进的结果,在 COGS 语义分析数据集上获得了与专用模型架构相当的结果。
Jan, 2022
研究自然语言推理 (NLI) 模型的鲁棒性,特别关注三个因素:不敏感、极性和未见过的词汇。结果发现,所有模型在处理未见过的反义词语上表现都欠佳,并且容易受到单词和标签之间的简单统计相关性的影响。
May, 2018
本研究基于多种语言和哲学理论对构成性的不同解释,提出了五个理论有据的测试方法,用于评估神经语言模型的构成性能力,结果分析了三种常见神经网络结构在高度构成性数据集上的表现和潜在改进方向。
Aug, 2019
本研究通过四种方法评估自然语言推理 (NLI) 模型是否可以学习词汇蕴涵和否定之间的组合交互作用,并提出了一个新的自然数据集 MoNLI,其中集中了词汇蕴涵和否定的相关内容,通过对 MoNLI 的 Fine-tuning 得到的模型相较于通用 NLI 数据集拥有更好的效果,同时对当前表现最佳的 BERT 模型进行探究表明其至少部分嵌入了词汇蕴涵和否定的算法级别理论。
Apr, 2020
本研究使用递归神经网络模型和限制信息传递的瓶颈机制,通过比较有无瓶颈情况下模型对数据的表示,提出了一种衡量复合性的度量标准,并基于此标准实现了一个数据集的复合性排序,应用于算术表达式合成数据和情感分类自然语言数据。
Jan, 2023
近年来,NLP 模型取得了巨大的进展,尤其是通过这方面的大量数据集进行性能评估。然而,有关特定数据集设计选择可能如何影响我们对模型能力的结论仍存在问题。本研究在组合泛化领域调查了六种建模方法在 4 个数据集上的表现,这些数据集根据 8 种组合分割策略进行划分,总计有 18 种组合泛化划分。我们的结果表明:i) 尽管所有数据集都设计用于评估组合泛化能力,但它们对建模方法的排名是不同的;ii) 由人类生成的数据集彼此之间更加一致,而与合成数据集之间的一致性较差;iii) 通常来说,数据集是否来自相同源头对于得到的模型排名的预测性更强,而是否保持相同的组合性解释则次之;iv) 数据中使用的词汇项目可以极大地影响结论。总的来说,我们的结果表明,在评估流行的评估数据集是否测量其意图时还有很多工作要做,建立更严格的评估标准可能有助于该领域的发展。
Oct, 2023