使用对比集的大型语言模型评估：一种实验方法

Apr, 2024

使用对比集的大型语言模型评估：一种实验方法

Evaluating Large Language Models Using Contrast Sets: An Experimental Approach

Manish Sanwal

TL;DR在自然语言推理领域中，交叉熵损失度量被广泛应用于多输入文本分类任务，但该度量方式在有效评估模型理解语义蕴涵能力方面存在不足。本研究引入一种创新技术，通过自动替换动词、副词和形容词的近义词来产生斯坦福自然语言推理数据集的对比集，以评估模型表现是否基于真实语言理解还是仅仅基于模式识别。研究使用 ELECTRA-small 模型进行分析，模型在常规的自然语言推理数据集上达到 89.9% 的准确率，但在对比集上准确率降低到了 72.5%，下降了 17%。由此结果导致我们对模型的学习行为进行了详细考察，然后通过针对自然语言推理数据集的对比增强训练数据集对模型进行微调，将其准确率提升到了 85.5%。我们的研究结果强调了在自然语言推理任务中加入多样化的语言表达的重要性，希望能促进创建更包容的数据集，从而推动更为复杂和有效的自然语言推理模型的发展。

Abstract

In the domain of natural language inference (NLI), especially in tasks involving the classification of multiple input texts, the cross-entropy loss metric is widely employed as a standard for error measurement. H

natural language inference cross-entropy loss contrast set model's resilience linguistic expressions

发现论文，激发创造

通过对比集评估模型的局部决策边界

提出了一种新的 NLP 注释范例，通过创建对照集，意在消除测试数据中的系统性差距，从而更准确地评估模型的真实语言能力。创建 10 个多样化的 NLP 数据集的对照集并将其作为新的评估基准发布。

Apr, 2020

Linguistically-Informed Transformations (LIT): 自动生成对比集合的方法

本文提出了一种语言学驱动的转换（LIT）方法，用于自动生成对比集，以探索感兴趣的语言现象以及组成不同现象。在对 SNLI 和 MNLI 进行实验中，使用我们的方法发现当前预训练语言模型虽然被认为包含足够的语言知识，但他们在我们自动生成的对比集上表现不佳。此外，通过将 LIT 应用于扩充训练数据，可以提高模型在对比集上的表现，并且不会影响原始数据的性能。

Oct, 2020

使用监督对比学习的句子嵌入

本文提出了一种使用对比学习进行监督学习 Fine-tuning 预训练 BERT 模型以创建高效句子嵌入的新方法，相比于只使用基于交叉熵的监督学习的当前最先进方法 SBERT，我们的方法可以在句子转换和语义文本相似度基准测试上改进 2.8％和 1.05％。

Jun, 2021

机器学习对矛盾检测模型的语言学研究：实证分析和未来展望

分析了两个自然语言推理数据集的语言特征，发现机器学习模型难以理解介词和动词语义重要性，不能理解反义词和同音词，不能理解不完整的句子和罕见单词短语，因此需要在训练过程中尽可能利用更多外部知识。

Oct, 2022

学习比较，提高开放领域自然语言生成模型的训练和评估

本文提出了一种使用 BERT fine-tuning 的方法来比较生成的自然语言模型，同时还提出了使用技能等级系统来评估模型质量，并将其作为性能指标，在训练过程中进行优化。实验结果表明，该方法与人类偏好的相关性更高，训练成果更优秀，有效性得到了证明。

Feb, 2020

用于跨语言评估的基于逻辑的语料库

本文提出了一种新的语法任务集，专注于矛盾检测，并评估了递归模型和 BERT 网络。虽然 BERT 在大多数逻辑形式上具有更好的泛化效果，但在处理计数算子时仍有待改进，同时表明该语法任务可以在不同的语言中实现并实现跨语言传递学习。

May, 2019

探究文本蕴涵数据集中的偏见

本研究分析了 SNLI 和 MultiNLI 数据集中逻辑关系的数据偏差程度及其影响，并提出一种简单的方法来降低数据集中的数据偏差。我们发现仅对 SNLI 数据集中的假设进行分类，就能产生 64% 的准确率。

Jun, 2019

自然语言推理的对偶级别监督对比学习

本文提出一种基于对偶句子级别的监督对比学习（PairSCL）方法，采用交叉注意力机制学习句子对的联合表示，并使用对比学习目标来区分不同类别的句子对，在两个公共 NLI 数据集上，PairSCL 的准确性平均优于其他方法 2.1％，并在文本分类的七个转移任务上超过了先前的最新方法。

Jan, 2022

跨语言推理的基准线和测试数据

本文提出将 SNLI 风格自然语言推断的研究推向多语言评估，为阿拉伯语，法语，西班牙语和俄语提供测试数据，并使用跨语言词嵌入和机器翻译构建基线系统，最终系统的平均准确率超过了 75％，并着重实现了多语言推断的进一步研究。

Apr, 2017

MENLI: 自然语言推理的鲁棒性评估度量

本文提出基于自然语言推断方法的评价指标，相比以往 BERT-based 评价指标更具鲁棒性，并结合其他评价指标可以同时提高鲁棒性和质量指标。

Aug, 2022