SDA: 简单离散增强方法用于对比句子表示学习
本研究提出了 AugCSE 框架,采用广泛且多样化的数据增强技术构建更好、更通用的句子嵌入模型,最终用只有无监督数据的方法,在多项任务上实现了最新成果。
Oct, 2022
本文提出了一种新的文本对比学习方法 ——CARDS,改进了正负样本的质量问题,提出了一种 switch-case augmentation 方式来对抗预训练模型对频率、词形大小写和子词的内在偏态,同时从整个数据集中使用已预训练的语言模型来挖掘难负样本,结果表明该方法在无监督环境下显著优于现有的方法。
Jun, 2022
通过 VaSCL 提出了一种虚拟增强支持的对比学习方法, 解决了在自然语言处理中由于自然语言的离散性而无法运用通用规则进行数据增强, 从而获得了无监督句子表示学习的最新最佳表现。
Oct, 2021
本文提出了一种基于对比学习框架的预训练语言模型微调方法,通过硬样本挖掘和使用不同 iable 的数据扩增技术,达到了在无标记或有标记数据上提高句子表示质量的目的。实验证明,该方法在半监督和监督学习设置下都优于现有对比学习方法,并且对标注数据更加高效。
Oct, 2022
该论文提出了一种新的数据增强模型 Continuous Semantic Augmentation (CsaNMT), 该模型可以使神经机器翻译模型在低资源环境中表现出更好的泛化性能和更高的翻译质量。通过丰富训练数据,提高了机器翻译的性能,并在多个语言翻译任务中取得了大幅度的提升。
Apr, 2022
本文从处理 dropout 噪声和解决特征损坏两个角度,提出了两种改进对比学习的方法,均能提高句子嵌入的性能,实验证明,将两种方法结合使用,相较于基于 BERT 基础的强基线模型 SimCSE,性能提升了 1.8 个点;同时,这些方法还能适用于 DiffCSE 等其他有着强鲁棒性的模型。
May, 2023
本论文提出了一种简单且有效的数据增广策略 ——“cutoff”,并采用 Jensen-Shannon Divergence 一致性损失将这些增广样本融入到训练目标中,以有效提升人工智能在自然语言理解和生成,机器翻译等领域的表现。cutoff 方法与竞争对手相比表现相当甚至更好,并在 IWSLT2014 German-English 数据集上取得了最优性能。
Sep, 2020
本研究探索了数据增强技术对文字分类的影响,使用多种数据增强技术,包括过采样、易用数据增强、反向翻译、灰度缩放以及一种少样本学习的方法 PTE。结果表明,数据增强技术对模型性能只有轻微且不一致的改进,少数同义词替换可以提高模型性能,灰度缩放需要进一步研究,PTE 的表现优于监督学习,尤其是在类别容易分离的情况下。
Mar, 2023