利用软标签编码缓解语言模型中的快捷方式

Sep, 2023

利用软标签编码缓解语言模型中的快捷方式

Mitigating Shortcuts in Language Models with Soft Label Encoding

Zirui He, Huiqi Deng, Haiyan Zhao, Ninghao Liu, Mengnan Du

TL;DR最近的研究表明，大型语言模型在自然语言理解任务中依赖于数据中的伪相关性。本研究旨在回答以下研究问题：我们能否通过改变训练数据的真实标签来减少伪相关性？具体而言，我们提出了一种简单而有效的去偏框架，称为软标签编码（SoftLE）。我们首先使用硬标签训练一个教师模型来确定每个样本对快捷方式的依赖程度。然后，我们添加一个虚拟类别来编码快捷方式程度，该虚拟类别用于平滑地生成其他维度上的地面真实标签生成软标签。这个新的地面真实标签用于训练一个更强大的学生模型。对两个自然语言理解基准任务进行的广泛实验证明，SoftLE 在保持令人满意的内部准确性的同时，显著提高了超过分布的概括能力。

Abstract

Recent research has shown that large language models rely on spurious correlations in the data for natural language understanding (NLU) tasks. In this work, we aim to answer the following research question: Can we reduce →

large language models spurious correlations training data soft label encoding out-of-distribution generalization

发现论文，激发创造

针对自然语言理解模型的捷径学习行为进行解释和缓解

本文研究表明，NLU 模型倾向于依赖于快捷特征进行预测，而不是真正理解语言。我们发现 NLU 训练集中的单词可以被建模为长尾分布，进一步提出了一种量化每个训练样例快捷程度的方法，并基于此提出了一个缓解快捷特征对模型训练的影响的框架 LTGR，实验结果表明这种方法可以提高模型对 OOD 数据的泛化能力，同时保持在分布数据上的准确性。

Mar, 2021

少学习捷径：分析和减轻虚假特征 - 标签相关性的学习

本文研究深度神经网络中数据集偏差对任务的影响。通过具体分析特征和标签之间的虚假相关性的来源，本文提出了一种训练策略，即通过量化偏置的程度来调整偏置示例的权重，以减少模型过度依赖数据集偏差的情况，并在 QM 和 NLI 任务上得到了表现的提高。

May, 2022

学习快速捷径：关于语言模型中自然语言理解的误导承诺

大型语言模型在自然语言处理领域取得了重要的性能提升，然而近期的研究发现，这些模型在执行任务时往往使用了捷径，导致性能看起来得到了提升，却缺乏泛化能力。这一现象给大型语言模型的自然语言理解评估带来了挑战。本文对该领域的相关研究进行了简明调查，并提出了对于捷径学习在语言模型评估中的影响的观点，特别是对于 NLU 任务。本文呼吁加大对捷径学习的研究力度，促进更加强大的语言模型的开发，并提高在实际场景中的 NLU 评估标准。

Jan, 2024

自然语言理解中大型语言模型的快速学习：综述

本文介绍了大型语言模型的概念、挑战和解决方法，着重关注了数据集偏差和简化学习对其抗干扰性的影响，提出了识别和缓解这些影响的方法，并探讨了未来可能的研究方向。

Aug, 2022

软件电子设计自动化：以软标签重构基于规则的数据增强

我们提出了一种简单直接的技术，通过应用软标签来改善基于规则的文本数据增强方法在自然语言处理任务中的性能。通过在七个不同的分类任务上进行实验，我们在经验证明了我们的方法的有效性，并公开了源代码以便复现。

Feb, 2024

深度模型压缩也有助于模型捕捉歧义

本研究提出了一种基于深度模型压缩的新方法，解决了自然语言理解中标记不确定性的问题，并发现了在低层中更合理表示的关系，这有助于减小模型的规模并改善可用性。

Jun, 2023

通过数据模糊化减轻标签噪声

本文提出一种使用 “超集学习” 框架来处理标签噪声的方法，将目标信息进行模糊化，并添加额外的备选标签，以协同改善学习器的泛化性能。实验结果表明该方法在合成和真实数据上都能有效检测和纠正错误的训练标签。

May, 2023

通过解耦置信学习缓解标签偏差

通过提出一种修剪方法，Decoupled Confident Learning (DeCoLe)，来解决标签偏见问题，并在仇恨言论检测领域应用其性能，成功识别了偏见标签并超过其他方法。

Jul, 2023

大型语言模型可能是懒惰学习者：在上下文学习中分析快捷方式

本篇研究旨在探索语言模型的泛化能力，结果表明语言模型更可能利用提示中的快捷方式，尤其是模型变得很大时。

May, 2023

识别和缓解虚假关联，提高自然语言处理模型的鲁棒性

本研究提出了一种方法，利用解释性方法从文本中提取影响模型决策过程的标记，分析模型在多个语料库上的预测并进一步通过知识感知扰动来区分 ' 真正 ' 的标记和 ' 虚假 ' 标记，有效地识别出一组 ' 捷径 '，从而实现在多个应用中的更加鲁棒的模型。

Oct, 2021