索多玛的苹果：通过对比学习在优越句子嵌入中隐藏后门

Oct, 2022

索多玛的苹果：通过对比学习在优越句子嵌入中隐藏后门

Apple of Sodom: Hidden Backdoors in Superior Sentence Embeddings via Contrastive Learning

Xiaoyi Chen, Baisong Xin, Shengfang Zhai, Shiqing Ma, Qingni Shen...

TL;DR本论文发现对比学习可以为预训练模型生成优秀的句向量，但也容易受到后门攻击。我们提出了第一个针对最先进的句子嵌入模型进行监督和非监督学习的后门攻击框架 BadCSE。通过注入后门攻击到句子嵌入中，BadCSE 在下游微调时具有抗干扰的特性。我们在 STS 任务和其他下游任务上评估了 BadCSE，监督式非定向攻击获得了 194.86％的性能下降，而定向攻击将后门添加到了目标嵌入中，成功率为 97.70％，同时保持模型的实用性。

Abstract

This paper finds that contrastive learning can produce superior sentence embeddings for pre-trained models but is also vulnerable to backdoor attacks. We present the first backdoor attack framework, →

contrastive learning backdoor attacks sentence embeddings badcse supervised and unsupervised learning

发现论文，激发创造

SimCSE: 简单的对比学习句子嵌入

本文介绍了一种简单的对比学习框架 SimCSE，通过无监督和监督学习两种方法，显著提高了句子嵌入的性能，适用于语义文本相似性任务。

Apr, 2021

DiffCSE：基于差异的对比学习用于句向量

本文介绍了 DiffCSE，一个无监督的对比学习框架，可以学习敏感于原始句子和编辑后句子之间差异的句子嵌入，通过朴素的掩码和掩码语言模型中的采样获得编辑后的句子，证明了 DiffSCE 是一种等变对比学习，并在语义文本相似性任务中取得了超越无监督 SimCSE 的最先进结果。

Apr, 2022

DebCSE：从去偏见的角度重新思考无监督对比句嵌入学习

本文研究了对比学习中存在的偏见问题，提出了一种名为 DebCSE 的新型对比框架，通过逆倾向加权抽样方法选择高质量的正负样本对，以消除各种偏见的影响，从而提高句子嵌入的质量。在语义文本相似性基准测试中，DebCSE 的平均 Spearman 相关系数为 80.33%，显著优于最新的最先进模型。

Sep, 2023

从零开始对句子嵌入进行对比学习

本研究提出了 SynCSE，通过利用大型语言模型合成数据样本，训练具有良好性能的句子嵌入，对比试验结果显示 SynCSE 在无监督基准模型的基础上具有更好的性能。

May, 2023

ImSimCSE：从两个角度改进句子嵌入的对比学习

本文从处理 dropout 噪声和解决特征损坏两个角度，提出了两种改进对比学习的方法，均能提高句子嵌入的性能，实验证明，将两种方法结合使用，相较于基于 BERT 基础的强基线模型 SimCSE，性能提升了 1.8 个点；同时，这些方法还能适用于 DiffCSE 等其他有着强鲁棒性的模型。

May, 2023

ESimCSE: 对无监督句子嵌入进行对比学习的增强样本构建方法

提出了一种增强的无监督句子嵌入方法 (ESimCSE)，通过简单的文本操作和动量对比，来提高 SimCSE 在句子语义相似度任务方面的性能，与已有的无监督学习方法相比表现更好。

Sep, 2021

无监督句子嵌入的实例平滑对比学习

本文提出了 IS-CSE 方法用于平滑特征空间中的嵌入，实现句子嵌入的无监督学习，进而在标准的语义文本相似度（STS）任务中取得更好的结果。

May, 2023

AugCSE：多样增强的对比句子嵌入

本研究提出了 AugCSE 框架，采用广泛且多样化的数据增强技术构建更好、更通用的句子嵌入模型，最终用只有无监督数据的方法，在多项任务上实现了最新成果。

Oct, 2022

利用增强的案例正例和检索负例改进句子嵌入的对比学习

本文提出了一种新的文本对比学习方法 ——CARDS，改进了正负样本的质量问题，提出了一种 switch-case augmentation 方式来对抗预训练模型对频率、词形大小写和子词的内在偏态，同时从整个数据集中使用已预训练的语言模型来挖掘难负样本，结果表明该方法在无监督环境下显著优于现有的方法。

Jun, 2022

InfoCSE: 句子嵌入的信息聚合对比学习

本文提出了一种信息聚合的对比学习框架 InfoCSE 用于学习无监督的句子嵌入，该框架引入了一个额外的掩蔽语言模型任务和一个经过精心设计的网络来强制 [CLS] 位置的表示聚合更密集的句子信息，并在语义文本相似性（STS）任务上取得了超越 SimCSE 的表现，平均 Spearman 相关性增加了 2.60％（BERT-base）和 1.77％（BERT-large），成为无监督句子表示学习方法中的最新成果。

Oct, 2022