减少数据伪影的自适应上采样算法

Jan, 2024

减少数据伪影的自适应上采样算法

No More Distractions: an Adaptive Up-Sampling Algorithm to Reduce Data Artifacts

Han Chen

TL;DR通过分析 SNLI 数据集中的虚假关联并提出一种自适应上采样算法，在不需要人工编辑或注释的情况下纠正数据生成的错误，从而显著提高了模型在 SNLI 数据集上的性能。

Abstract

Researchers recently found out that sometimes language models achieve high accuracy on benchmark data set, but they can not generalize very well with even little changes to the original data set. This is sometimes due to data artifacts, model is learning the →

language models generalization data artifacts spurious correlation up-sampling algorithm

发现论文，激发创造

自然语言推理的多尺度数据增强方法用于降低伪影和优化预训练模型

研究机器学习模型在自然语言推断（NLI）中学习数据集人工特征的问题，并提供一种多层次的数据增强方法以减轻数据集的人工特征带来的影响。

Dec, 2022

通过增强自然语言处理数据来应对自然语言推断任务中的注释人为错误

本研究旨在研究 Annotation Artifacts 在大型预先训练的 NLP 模型中的表现，分析其在自然语言推断任务中的限制、通过数据增强技术解决注释工件所引起的偏差，以及评估该方法的有效性。

Feb, 2023

通过统计检验和自动数据增强解析自然语言推理中的词汇偏见数据集以减少人为影响

通过利用一种新颖的统计测试方法，我们发现词汇分布与文本蕴含类之间存在显著关联，强调词汇是一种明显的偏差源。为了减轻这些问题，我们提出了几种自动数据增强策略，从字符到词级别。通过对 ELECTRA 预训练语言模型进行微调，我们将有增强数据的模型与基准模型进行了比较。实验证明，所提出的方法可以有效提高模型准确性，并分别减少偏差约 0.66% 和 1.14%。

Dec, 2023

生成数据以缓解自然语言推理数据集中的伪相关性

本篇研究提出了一种生成去偏差数据集的方法，通过过滤掉对任务并无帮助的数据以提高自然语言处理模型的泛化能力，并在实验中证实了该方法可以显著提高模型在不同任务分布下的性能表现。

Mar, 2022

使用对比预训练和对抗过滤的强健任务导向对话生成

本研究探讨了数据人工制品对机器学习模型泛化能力所产生的影响，提出一种基于对比学习的框架，试图鼓励深度学习模型学习普适规律并忽略数据人工制品。研究表明该方法具有很好的实验效果。

May, 2022

神经机器翻译蒸馏数据的采样和过滤

本文探究了利用重要性抽样法进行神经机器翻译中的知识蒸馏，包括剪枝、假设上采样和下采样、去重和它们的组合，并使用标准的翻译质量评估方法对英德和英捷翻译模型进行训练与测试，结果显示，仔细选择合适的数据进行上采样并与原始数据组合，可获得更好的性能提升。

Apr, 2021

反事实增强的 SNLI 训练数据不比未增强的数据具有更好的泛化性能

本研究发现，通过常规众包技术建立的反事实数据增强自然语言阅读理解数据集，不利于训练模型的泛化性和鲁棒性，并且在成本考虑上使用此种方法带来的收益很少。

Oct, 2020

通过决策边界感知的数据增强在低资源环境中提高效果和鲁棒性

该研究提出了一种基于决策边界的数据增强策略，利用预训练语言模型来提高鲁棒性；该技术首先将潜在特征接近决策边界，然后通过重构生成一个带有软标签的模糊版本，并建议使用中点 K 采样来增强生成句子的多样性。通过大量实验证明了该增强策略与其他方法相比的性能，同时深入研究了软标签和中点 K 采样的效果以及该方法在课程数据增强中的可扩展性。

Mar, 2024

自然语言理解中的即时数据增强去噪

本文介绍了一种基于原始数据集更清洁的假设，利用有机教师模型提供的软增强标签进行学习的数据增强即时去噪方法，并应用简单的自正则化模块来防止在噪声标签上过拟合，该方法可应用于各种数据扩充技术，可以在文本分类和问答任务中提高性能。

Dec, 2022

POS 标记器构建中的自适应采样自适应调度

我们引入了自适应调度的自适应采样作为构建词性标注器机器学习的一种新方法，目标是加速在大数据集上的训练，同时不显著损失性能。我们的算法通过分析学习曲线的形状几何特征，结合功能模型，在任何时间点上增加或减少采样间隔，从而证明了其在理论上的正确性。此外，通过更加关注训练数据中性能暂时膨胀的区域，我们提高了采样的鲁棒性，防止学习过早停止。该提议经过可靠性评估，验证了模型收敛性，符合我们的预期。虽然测试时使用了具体的停止条件，但用户可以根据自己的特定需求选择任何条件。

Feb, 2024