减少数据伪影的自适应上采样算法
研究机器学习模型在自然语言推断(NLI)中学习数据集人工特征的问题,并提供一种多层次的数据增强方法以减轻数据集的人工特征带来的影响。
Dec, 2022
本研究旨在研究 Annotation Artifacts 在大型预先训练的 NLP 模型中的表现,分析其在自然语言推断任务中的限制、通过数据增强技术解决注释工件所引起的偏差,以及评估该方法的有效性。
Feb, 2023
通过利用一种新颖的统计测试方法,我们发现词汇分布与文本蕴含类之间存在显著关联,强调词汇是一种明显的偏差源。为了减轻这些问题,我们提出了几种自动数据增强策略,从字符到词级别。通过对 ELECTRA 预训练语言模型进行微调,我们将有增强数据的模型与基准模型进行了比较。实验证明,所提出的方法可以有效提高模型准确性,并分别减少偏差约 0.66% 和 1.14%。
Dec, 2023
本篇研究提出了一种生成去偏差数据集的方法,通过过滤掉对任务并无帮助的数据以提高自然语言处理模型的泛化能力,并在实验中证实了该方法可以显著提高模型在不同任务分布下的性能表现。
Mar, 2022
本研究探讨了数据人工制品对机器学习模型泛化能力所产生的影响,提出一种基于对比学习的框架,试图鼓励深度学习模型学习普适规律并忽略数据人工制品。研究表明该方法具有很好的实验效果。
May, 2022
本文探究了利用重要性抽样法进行神经机器翻译中的知识蒸馏,包括剪枝、假设上采样和下采样、去重和它们的组合,并使用标准的翻译质量评估方法对英德和英捷翻译模型进行训练与测试,结果显示,仔细选择合适的数据进行上采样并与原始数据组合,可获得更好的性能提升。
Apr, 2021
本研究发现,通过常规众包技术建立的反事实数据增强自然语言阅读理解数据集,不利于训练模型的泛化性和鲁棒性,并且在成本考虑上使用此种方法带来的收益很少。
Oct, 2020
该研究提出了一种基于决策边界的数据增强策略,利用预训练语言模型来提高鲁棒性;该技术首先将潜在特征接近决策边界,然后通过重构生成一个带有软标签的模糊版本,并建议使用中点 K 采样来增强生成句子的多样性。通过大量实验证明了该增强策略与其他方法相比的性能,同时深入研究了软标签和中点 K 采样的效果以及该方法在课程数据增强中的可扩展性。
Mar, 2024
本文介绍了一种基于原始数据集更清洁的假设,利用有机教师模型提供的软增强标签进行学习的数据增强即时去噪方法,并应用简单的自正则化模块来防止在噪声标签上过拟合,该方法可应用于各种数据扩充技术,可以在文本分类和问答任务中提高性能。
Dec, 2022
我们引入了自适应调度的自适应采样作为构建词性标注器机器学习的一种新方法,目标是加速在大数据集上的训练,同时不显著损失性能。我们的算法通过分析学习曲线的形状几何特征,结合功能模型,在任何时间点上增加或减少采样间隔,从而证明了其在理论上的正确性。此外,通过更加关注训练数据中性能暂时膨胀的区域,我们提高了采样的鲁棒性,防止学习过早停止。该提议经过可靠性评估,验证了模型收敛性,符合我们的预期。虽然测试时使用了具体的停止条件,但用户可以根据自己的特定需求选择任何条件。
Feb, 2024