机器学习对矛盾检测模型的语言学研究:实证分析和未来展望
本文提出了一种新的语法任务集,专注于矛盾检测,并评估了递归模型和 BERT 网络。虽然 BERT 在大多数逻辑形式上具有更好的泛化效果,但在处理计数算子时仍有待改进,同时表明该语法任务可以在不同的语言中实现并实现跨语言传递学习。
May, 2019
本研究分析了 SNLI 和 MultiNLI 数据集中逻辑关系的数据偏差程度及其影响,并提出一种简单的方法来降低数据集中的数据偏差。我们发现仅对 SNLI 数据集中的假设进行分类,就能产生 64% 的准确率。
Jun, 2019
该研究提出了一个新的基于机器学习模型的方法来检测阿拉伯语句子对之间的矛盾。作者创建了一个丰富的数据集(ArNLI)来进行实验,并进行了多个传统机器学习分类器的比较,其中 Random Forest 分类器在三个测试数据集中的准确率分别为 99%、60%和 75%。
Sep, 2022
介绍了一种新颖的数据生成方法用于矛盾检测,结合了大型语言模型的生成能力和语言规则,旨在提供一种取得深入语言分析和高效语言模型微调的原型矛盾语料库。
Oct, 2023
本文提出将 SNLI 风格自然语言推断的研究推向多语言评估,为阿拉伯语,法语,西班牙语和俄语提供测试数据,并使用跨语言词嵌入和机器翻译构建基线系统,最终系统的平均准确率超过了 75%,并着重实现了多语言推断的进一步研究。
Apr, 2017
通过引入 Stanford 自然语言推理语料库,我们成功解决了机器学习研究在自然语言推理方面的巨大缺乏,该语料库是由人类按照基于图像字幕的新颖本体任务撰写的标记句子对,包含 570k 个句子对,是同类资源的两个量级以上,在规模方面取得了重大进展,这使得词汇分类器优于一些复杂的现有蕴含模型,并且让一种基于神经网络的模型在自然语言推理基准测试中首次表现亮眼。
Aug, 2015
我们通过引入具有大量词汇重叠的自然语言推理的小型挑战数据集,从 NLP 的角度出发,展示了 GPT-4 和 Llama 2 在此方面的失败,同时从计算语言学的角度,我们发现一组无法通过表面特征区分的三类形容词结构,进而探索 LLM 对这些结构的理解,在多个方面我们发现它们在区分和理解上存在多种失败,这表明它们未充分代表其含义或捕捉词组中词性的特性。
Mar, 2024
通过预训练模型在标注过程中使用,本文介绍了对自然语言推理进行研究的越南 NLVS 数据集 ViANLI,并证明基于该数据集训练的模型显著提高了其他越南自然语言推理数据集的结果。
Jun, 2024
该研究提出了使用一个语言模型预测的句子的语法正确性来评估该模型的数据集。实验结果表明,在众多句子变体中,LSTM 语言模型的准确性较差,而使用句法目标的多任务训练可以提高模型的准确性,但模型仍存在较大的进步空间。
Aug, 2018
在自然语言推理领域中,交叉熵损失度量被广泛应用于多输入文本分类任务,但该度量方式在有效评估模型理解语义蕴涵能力方面存在不足。本研究引入一种创新技术,通过自动替换动词、副词和形容词的近义词来产生斯坦福自然语言推理数据集的对比集,以评估模型表现是否基于真实语言理解还是仅仅基于模式识别。研究使用 ELECTRA-small 模型进行分析,模型在常规的自然语言推理数据集上达到 89.9% 的准确率,但在对比集上准确率降低到了 72.5%,下降了 17%。由此结果导致我们对模型的学习行为进行了详细考察,然后通过针对自然语言推理数据集的对比增强训练数据集对模型进行微调,将其准确率提升到了 85.5%。我们的研究结果强调了在自然语言推理任务中加入多样化的语言表达的重要性,希望能促进创建更包容的数据集,从而推动更为复杂和有效的自然语言推理模型的发展。
Apr, 2024