可微分数据增强用于对比句子表示学习

EMNLPOct, 2022

可微分数据增强用于对比句子表示学习

Differentiable Data Augmentation for Contrastive Sentence Representation Learning

Tianduo Wang, Wei Lu

TL;DR本文提出了一种基于对比学习框架的预训练语言模型微调方法，通过硬样本挖掘和使用不同 iable 的数据扩增技术，达到了在无标记或有标记数据上提高句子表示质量的目的。实验证明，该方法在半监督和监督学习设置下都优于现有对比学习方法，并且对标注数据更加高效。

Abstract

fine-tuning a pre-trained language model via the contrastive learning framework with a large amount of unlabeled sentences or labeled sentence pairs is a common way to obtain high-quality →

contrastive learning fine-tuning pre-trained models data augmentation sentence representations

发现论文，激发创造

基于大型语言模型的语义感知对照句子表示学习

通过利用大型语言模型的生成和评估能力，我们提出了 SemCSR，一种语义感知的对比句子表示框架，可以自动构建高质量的 NLI 风格语料库，并将生成的句子对纳入对比句子表示模型的学习，实验证明了我们提出的框架在使用大型语言模型学习更好的句子表示方面的有效性。

Oct, 2023

细心增广：对于组合问题的对比学习

通过引入 label-preserving augmentations 和对 contrastive pre-training 进行科学研究，我们发现可以利用有标签的数据集中仅 1% 的数据就可以训练出与全监督学习具有可比性的表示方法，并且这些表示方法更易于从新领域中进行更大规模的推广应用。

Feb, 2022

一种用于时间序列的监督对比学习预训练 - 微调方法

引入一种新的预训练程序，利用有监督对比学习来区分每个预训练数据集中的特征，进而通过将目标数据与预训练数据集的学习动态更加紧密地对齐，以提高目标数据的准确预测。

Nov, 2023

PCL: 多样增强的同行对比学习用于无监督句子嵌入

本文提出了一种多增强策略下的同伴对照学习（PCL），以构造对比配对并构建无监督的句子嵌入，其表现优于其他与之竞争的句子嵌入方法。

Jan, 2022

利用对抗扰动的对比学习实现条件文本生成

该论文通过对比正负样本来缓解序列到序列模型中的条件文本生成问题，通过生成正负样本来引导模型更好地区分正确的输出和错误的输出，并提出了一种原则性的方法来生成正负样本，改进了机器翻译、文本摘要和问题生成等三个文本生成任务的泛化能力。

Dec, 2020

利用摘要构建对比样本，用于有限标注的文本分类

本文研究了如何使用基于文本总结的数据扩增方法来构建语言任务的对比样本，从而通过有限的标注数据提高文本表示效果，并配合 Mixsum 正则化方法，实验结果显示所提出的对比学习框架在真实世界的文本分类数据集上表现出很好的效果。

Apr, 2021

虚拟增强支持对比学习句子表示

通过 VaSCL 提出了一种虚拟增强支持的对比学习方法，解决了在自然语言处理中由于自然语言的离散性而无法运用通用规则进行数据增强，从而获得了无监督句子表示学习的最新最佳表现。

Oct, 2021

预训练语言模型微调的监督对比学习

通过构建 SCL 算法，并将其应用到先前基于 RoBERTa-Large 模型的建议中，提出了一种新的有监督对比学习优化目标，用于自然语言理解任务的微调，在少样本学习设置下，相比于传统 CE 损失函数，该方法在多个数据集上均有显著的改进，可以更好地处理数据噪音并更好地推广至相关任务。

Nov, 2020

LM-CPPF: 基于释义的数据增强方法用于对比提示式少量样本微调

本文介绍一种利用生成式语言模型在少样本学习中进行数据增强的方法 —— 通过提示为基础的几乎相同句子识别（LM-CPPF）方法，实验证明此方法相对于其他数据增强方法有着更为显著的优势，如易操作数据增强、回译和多重模板等方法，并在多项文本分类基准测试中获得最佳效果。

May, 2023

利用增强的案例正例和检索负例改进句子嵌入的对比学习

本文提出了一种新的文本对比学习方法 ——CARDS，改进了正负样本的质量问题，提出了一种 switch-case augmentation 方式来对抗预训练模型对频率、词形大小写和子词的内在偏态，同时从整个数据集中使用已预训练的语言模型来挖掘难负样本，结果表明该方法在无监督环境下显著优于现有的方法。

Jun, 2022