一种简单而又难以击败的数据增强方法，用于自然语言理解和生成

Sep, 2020

一种简单而又难以击败的数据增强方法，用于自然语言理解和生成

A Simple but Tough-to-Beat Data Augmentation Approach for Natural Language Understanding and Generation

Dinghan Shen, Mingzhi Zheng, Yelong Shen, Yanru Qu, Weizhu Chen

TL;DR本论文提出了一种简单且有效的数据增广策略 ——“cutoff”，并采用 Jensen-Shannon Divergence 一致性损失将这些增广样本融入到训练目标中，以有效提升人工智能在自然语言理解和生成，机器翻译等领域的表现。cutoff 方法与竞争对手相比表现相当甚至更好，并在 IWSLT2014 German-English 数据集上取得了最优性能。

Abstract

adversarial training has been shown effective at endowing the learned representations with stronger generalization ability. However, it typically requires expensive computation to determine the direction of the i

adversarial training data augmentation generalization natural language processing machine translation

发现论文，激发创造

HiddenCut: 自然语言理解的简单数据增强方法提升泛化性能

通过数据增广技术 HiddenCut，可以更好地规范化模型，激励其学习更通用的特征，从而在 GLUE 基准测试上表现出比现有技术更好的表现。

May, 2021

通过决策边界感知的数据增强在低资源环境中提高效果和鲁棒性

该研究提出了一种基于决策边界的数据增强策略，利用预训练语言模型来提高鲁棒性；该技术首先将潜在特征接近决策边界，然后通过重构生成一个带有软标签的模糊版本，并建议使用中点 K 采样来增强生成句子的多样性。通过大量实验证明了该增强策略与其他方法相比的性能，同时深入研究了软标签和中点 K 采样的效果以及该方法在课程数据增强中的可扩展性。

Mar, 2024

可微分数据增强用于对比句子表示学习

本文提出了一种基于对比学习框架的预训练语言模型微调方法，通过硬样本挖掘和使用不同 iable 的数据扩增技术，达到了在无标记或有标记数据上提高句子表示质量的目的。实验证明，该方法在半监督和监督学习设置下都优于现有对比学习方法，并且对标注数据更加高效。

Oct, 2022

用最大熵对抗数据增强来提高泛化能力和鲁棒性

本文提出了基于信息瓶颈原理的最大熵正则化方法用于敌对数据增强，通过扩大模型预测不确定性来产生 “难” 的敌对扰动，提升模型鲁棒性，并在三个基准测试中实现了比现有技术显著的优越性能。

Oct, 2020

通过损失截断改善自然语言生成

本文提出了一种利用模型与参考之间的可区分性来处理无效参考的算法，称为损失截断。与常用的 log 损失相比，该方法可以更好地应对嘈杂和无效的参考，并取得了更好的实验效果，生成的样本拥有超越基线并与人类参考相匹配的事实准确性评分。

Apr, 2020

通过隐式对抗数据增强提升模型的弹性

通过融入对抗性和反对抗性扰动分布，增强样本的深度特征，适应性调整学习困难以适应每个样本的特征。同时，开发了一种基于元学习的框架，通过引入增强的效果并跳过显式的增强过程，优化分类器。在长尾学习、广义长尾学习、嘈杂标记学习和子种群转移学习等四种常见偏差学习场景中进行了广泛实验，实证结果表明该方法始终达到最先进的性能水平，突显其广泛适应性。

Apr, 2024

使用对比预训练和对抗过滤的强健任务导向对话生成

本研究探讨了数据人工制品对机器学习模型泛化能力所产生的影响，提出一种基于对比学习的框架，试图鼓励深度学习模型学习普适规律并忽略数据人工制品。研究表明该方法具有很好的实验效果。

May, 2022

自然语言理解中的即时数据增强去噪

本文介绍了一种基于原始数据集更清洁的假设，利用有机教师模型提供的软增强标签进行学习的数据增强即时去噪方法，并应用简单的自正则化模块来防止在噪声标签上过拟合，该方法可应用于各种数据扩充技术，可以在文本分类和问答任务中提高性能。

Dec, 2022

提高对抗鲁棒性的数据增强修复

本文研究对抗训练的过拟合问题，提出利用数据增强和生成模型增加训练集大小，提高对抗鲁棒性，并在 CIFAR-10 数据集上取得最新成果，其中对于 Ε=8/255 的 l∞规范扰动，模型不使用外部数据时达到 64.20％的鲁棒准确性，超过了大多数先前使用外部数据的研究成果。

Mar, 2021

深度学习训练过程增强

本文介绍了几种新颖的深度学习训练技术，如广义模型无关课程学习方法和级联加和增强方法，它们不仅能够提高训练效率并改善深度网络训练过程中的优化平滑度、鲁棒性，而且还能够为计算机视觉任务提供更好的预测性能和模型稳健性。

Nov, 2022