可微分数据增强用于对比句子表示学习
通过利用大型语言模型的生成和评估能力,我们提出了 SemCSR,一种语义感知的对比句子表示框架,可以自动构建高质量的 NLI 风格语料库,并将生成的句子对纳入对比句子表示模型的学习,实验证明了我们提出的框架在使用大型语言模型学习更好的句子表示方面的有效性。
Oct, 2023
通过引入 label-preserving augmentations 和对 contrastive pre-training 进行科学研究,我们发现可以利用有标签的数据集中仅 1% 的数据就可以训练出与全监督学习具有可比性的表示方法,并且这些表示方法更易于从新领域中进行更大规模的推广应用。
Feb, 2022
引入一种新的预训练程序,利用有监督对比学习来区分每个预训练数据集中的特征,进而通过将目标数据与预训练数据集的学习动态更加紧密地对齐,以提高目标数据的准确预测。
Nov, 2023
该论文通过对比正负样本来缓解序列到序列模型中的条件文本生成问题,通过生成正负样本来引导模型更好地区分正确的输出和错误的输出,并提出了一种原则性的方法来生成正负样本,改进了机器翻译、文本摘要和问题生成等三个文本生成任务的泛化能力。
Dec, 2020
本文研究了如何使用基于文本总结的数据扩增方法来构建语言任务的对比样本,从而通过有限的标注数据提高文本表示效果,并配合 Mixsum 正则化方法,实验结果显示所提出的对比学习框架在真实世界的文本分类数据集上表现出很好的效果。
Apr, 2021
通过 VaSCL 提出了一种虚拟增强支持的对比学习方法, 解决了在自然语言处理中由于自然语言的离散性而无法运用通用规则进行数据增强, 从而获得了无监督句子表示学习的最新最佳表现。
Oct, 2021
通过构建 SCL 算法,并将其应用到先前基于 RoBERTa-Large 模型的建议中,提出了一种新的有监督对比学习优化目标,用于自然语言理解任务的微调,在少样本学习设置下,相比于传统 CE 损失函数,该方法在多个数据集上均有显著的改进,可以更好地处理数据噪音并更好地推广至相关任务。
Nov, 2020
本文介绍一种利用生成式语言模型在少样本学习中进行数据增强的方法 —— 通过提示为基础的几乎相同句子识别(LM-CPPF)方法,实验证明此方法相对于其他数据增强方法有着更为显著的优势,如易操作数据增强、回译和多重模板等方法,并在多项文本分类基准测试中获得最佳效果。
May, 2023
本文提出了一种新的文本对比学习方法 ——CARDS,改进了正负样本的质量问题,提出了一种 switch-case augmentation 方式来对抗预训练模型对频率、词形大小写和子词的内在偏态,同时从整个数据集中使用已预训练的语言模型来挖掘难负样本,结果表明该方法在无监督环境下显著优于现有的方法。
Jun, 2022