机器学习对矛盾检测模型的语言学研究：实证分析和未来展望

ICMLOct, 2022

机器学习对矛盾检测模型的语言学研究：实证分析和未来展望

A Linguistic Investigation of Machine Learning based Contradiction Detection Models: An Empirical Analysis and Future Perspectives

PDF

Maren Pielka, Felix Rode, Lisa Pucknat, Tobias Deußer, Rafet Sifa

TL;DR分析了两个自然语言推理数据集的语言特征，发现机器学习模型难以理解介词和动词语义重要性，不能理解反义词和同音词，不能理解不完整的句子和罕见单词短语，因此需要在训练过程中尽可能利用更多外部知识。

Abstract

We analyze two natural language inference data sets with respect to their linguistic features. The goal is to identify those syntactic and semantic properties that are particularly hard to comprehend for a

natural language inference linguistic features machine learning prepositions automated language understanding

发现论文，激发创造

用于跨语言评估的基于逻辑的语料库

本文提出了一种新的语法任务集，专注于矛盾检测，并评估了递归模型和 BERT 网络。虽然 BERT 在大多数逻辑形式上具有更好的泛化效果，但在处理计数算子时仍有待改进，同时表明该语法任务可以在不同的语言中实现并实现跨语言传递学习。

May, 2019

探究文本蕴涵数据集中的偏见

本研究分析了 SNLI 和 MultiNLI 数据集中逻辑关系的数据偏差程度及其影响，并提出一种简单的方法来降低数据集中的数据偏差。我们发现仅对 SNLI 数据集中的假设进行分类，就能产生 64% 的准确率。

Jun, 2019

ArNLI：用于蕴涵和矛盾检测的阿拉伯语自然语言推理

该研究提出了一个新的基于机器学习模型的方法来检测阿拉伯语句子对之间的矛盾。作者创建了一个丰富的数据集（ArNLI）来进行实验，并进行了多个传统机器学习分类器的比较，其中 Random Forest 分类器在三个测试数据集中的准确率分别为 99％、60％和 75％。

Sep, 2022

利用大型语言模型和语言规则生成矛盾检测的原型

介绍了一种新颖的数据生成方法用于矛盾检测，结合了大型语言模型的生成能力和语言规则，旨在提供一种取得深入语言分析和高效语言模型微调的原型矛盾语料库。

Oct, 2023

跨语言推理的基准线和测试数据

本文提出将 SNLI 风格自然语言推断的研究推向多语言评估，为阿拉伯语，法语，西班牙语和俄语提供测试数据，并使用跨语言词嵌入和机器翻译构建基线系统，最终系统的平均准确率超过了 75％，并着重实现了多语言推断的进一步研究。

Apr, 2017

用于学习自然语言推理的大规模注释语料库

通过引入 Stanford 自然语言推理语料库，我们成功解决了机器学习研究在自然语言推理方面的巨大缺乏，该语料库是由人类按照基于图像字幕的新颖本体任务撰写的标记句子对，包含 570k 个句子对，是同类资源的两个量级以上，在规模方面取得了重大进展，这使得词汇分类器优于一些复杂的现有蕴含模型，并且让一种基于神经网络的模型在自然语言推理基准测试中首次表现亮眼。

Aug, 2015

构造难题之难即使对于大语言模型也因错误原因而被解决

我们通过引入具有大量词汇重叠的自然语言推理的小型挑战数据集，从 NLP 的角度出发，展示了 GPT-4 和 Llama 2 在此方面的失败，同时从计算语言学的角度，我们发现一组无法通过表面特征区分的三类形容词结构，进而探索 LLM 对这些结构的理解，在多个方面我们发现它们在区分和理解上存在多种失败，这表明它们未充分代表其含义或捕捉词组中词性的特性。

Mar, 2024

ViANLI: 针对越南语的对抗自然语言推理

通过预训练模型在标注过程中使用，本文介绍了对自然语言推理进行研究的越南 NLVS 数据集 ViANLI，并证明基于该数据集训练的模型显著提高了其他越南自然语言推理数据集的结果。

Jun, 2024

面向目标的语法评估语言模型

该研究提出了使用一个语言模型预测的句子的语法正确性来评估该模型的数据集。实验结果表明，在众多句子变体中，LSTM 语言模型的准确性较差，而使用句法目标的多任务训练可以提高模型的准确性，但模型仍存在较大的进步空间。

Aug, 2018

使用对比集的大型语言模型评估：一种实验方法

在自然语言推理领域中，交叉熵损失度量被广泛应用于多输入文本分类任务，但该度量方式在有效评估模型理解语义蕴涵能力方面存在不足。本研究引入一种创新技术，通过自动替换动词、副词和形容词的近义词来产生斯坦福自然语言推理数据集的对比集，以评估模型表现是否基于真实语言理解还是仅仅基于模式识别。研究使用 ELECTRA-small 模型进行分析，模型在常规的自然语言推理数据集上达到 89.9% 的准确率，但在对比集上准确率降低到了 72.5%，下降了 17%。由此结果导致我们对模型的学习行为进行了详细考察，然后通过针对自然语言推理数据集的对比增强训练数据集对模型进行微调，将其准确率提升到了 85.5%。我们的研究结果强调了在自然语言推理任务中加入多样化的语言表达的重要性，希望能促进创建更包容的数据集，从而推动更为复杂和有效的自然语言推理模型的发展。

Apr, 2024