SDA: 简单离散增强方法用于对比句子表示学习

Oct, 2022

SDA: 简单离散增强方法用于对比句子表示学习

SDA: Simple Discrete Augmentation for Contrastive Sentence Representation Learning

Zhenyu Mao, Dongsheng Zhu, Jinghui Lu, Rui Zhao, Fei Tan

TL;DR本文提出三种离散级别的语句数据增强方法（标点符号插入、肯定助动词和双重否定），以实现语义一致性和表达多样性的平衡，从而取得了良好的效果，并在英文和中文语义文本相似性数据集上进行了广泛的实验。

Abstract

contrastive learning methods achieve state-of-the-art results in unsupervised sentence representation learning. Although playing essential roles in →

contrastive learning data augmentation sentence representation simcse semantic consistency

发现论文，激发创造

AugCSE：多样增强的对比句子嵌入

本研究提出了 AugCSE 框架，采用广泛且多样化的数据增强技术构建更好、更通用的句子嵌入模型，最终用只有无监督数据的方法，在多项任务上实现了最新成果。

Oct, 2022

利用增强的案例正例和检索负例改进句子嵌入的对比学习

本文提出了一种新的文本对比学习方法 ——CARDS，改进了正负样本的质量问题，提出了一种 switch-case augmentation 方式来对抗预训练模型对频率、词形大小写和子词的内在偏态，同时从整个数据集中使用已预训练的语言模型来挖掘难负样本，结果表明该方法在无监督环境下显著优于现有的方法。

Jun, 2022

虚拟增强支持对比学习句子表示

通过 VaSCL 提出了一种虚拟增强支持的对比学习方法，解决了在自然语言处理中由于自然语言的离散性而无法运用通用规则进行数据增强，从而获得了无监督句子表示学习的最新最佳表现。

Oct, 2021

可微分数据增强用于对比句子表示学习

本文提出了一种基于对比学习框架的预训练语言模型微调方法，通过硬样本挖掘和使用不同 iable 的数据扩增技术，达到了在无标记或有标记数据上提高句子表示质量的目的。实验证明，该方法在半监督和监督学习设置下都优于现有对比学习方法，并且对标注数据更加高效。

Oct, 2022

学习扩展泛化：面向神经机器翻译的连续语义增强

该论文提出了一种新的数据增强模型 Continuous Semantic Augmentation (CsaNMT), 该模型可以使神经机器翻译模型在低资源环境中表现出更好的泛化性能和更高的翻译质量。通过丰富训练数据，提高了机器翻译的性能，并在多个语言翻译任务中取得了大幅度的提升。

Apr, 2022

面向对话生成的选择性数据增强学习

介绍一种选择性数据增强框架（SDA），它利用对抗网络选择哪些数据点适合用于增强神经对话模型的性能，从而改善响应生成性能。

Mar, 2023

ImSimCSE：从两个角度改进句子嵌入的对比学习

本文从处理 dropout 噪声和解决特征损坏两个角度，提出了两种改进对比学习的方法，均能提高句子嵌入的性能，实验证明，将两种方法结合使用，相较于基于 BERT 基础的强基线模型 SimCSE，性能提升了 1.8 个点；同时，这些方法还能适用于 DiffCSE 等其他有着强鲁棒性的模型。

May, 2023

一种简单而又难以击败的数据增强方法，用于自然语言理解和生成

本论文提出了一种简单且有效的数据增广策略 ——“cutoff”，并采用 Jensen-Shannon Divergence 一致性损失将这些增广样本融入到训练目标中，以有效提升人工智能在自然语言理解和生成，机器翻译等领域的表现。cutoff 方法与竞争对手相比表现相当甚至更好，并在 IWSLT2014 German-English 数据集上取得了最优性能。

Sep, 2020

探索社交媒体语料库上的数据增强方法

本研究探索了数据增强技术对文字分类的影响，使用多种数据增强技术，包括过采样、易用数据增强、反向翻译、灰度缩放以及一种少样本学习的方法 PTE。结果表明，数据增强技术对模型性能只有轻微且不一致的改进，少数同义词替换可以提高模型性能，灰度缩放需要进一步研究，PTE 的表现优于监督学习，尤其是在类别容易分离的情况下。

Mar, 2023

SimCSE: 简单的对比学习句子嵌入

本文介绍了一种简单的对比学习框架 SimCSE，通过无监督和监督学习两种方法，显著提高了句子嵌入的性能，适用于语义文本相似性任务。

Apr, 2021