UNSEE: 无监督非对比句子嵌入

ACLJan, 2024

UNSEE: Unsupervised Non-contrastive Sentence Embeddings

Ömer Veysel Çağatan

TL;DR在大规模文本嵌入基准测试中，我们提出了一种名为 UNSEE 的无监督非对比句子嵌入的新方法，通过解决表示崩溃问题和引入目标网络的简单解决方案，我们实现了可与对比目标相媲美的性能提升。

Abstract

We present unsee: unsupervised non-contrastive sentence embeddings, a novel approach that outperforms SimCSE in the Massive Text Embedding

unsee unsupervised non-contrastive sentence embeddings representation collapse target network

发现论文，激发创造

SimCSE: 简单的对比学习句子嵌入

本文介绍了一种简单的对比学习框架 SimCSE，通过无监督和监督学习两种方法，显著提高了句子嵌入的性能，适用于语义文本相似性任务。

Apr, 2021

SNCSE: 无监督句子嵌入的对比学习与软负样本

本文通过引入软负样本和双向边缘损失来改善当前无监督对比学习中的特征抑制问题，在语义文本相似度任务上取得了最优结果。

Jan, 2022

基于自监督学习的非对比句子表示

通过比较对比句子嵌入方法中的标准基准 SimCSE 与计算机视觉社区中被称为维度对比的自监督损失函数和方法，我们发现使用维度对比目标训练的自监督嵌入能够在下游任务中胜过 SimCSE 而无需辅助损失函数。

Oct, 2023

平滑对比学习用于无监督句子嵌入

该论文提出了一种简单有效的平滑策略 (Gaussian Smoothing InfoNCE)，以解决在使用较大 batch size 时信息噪声过多导致性能下降的问题，在标准语义文本相似度任务 (STS) 上表现超过了目前最先进的无监督学习方法 (unsup-SimCSE)

Sep, 2021

DebCSE：从去偏见的角度重新思考无监督对比句嵌入学习

本文研究了对比学习中存在的偏见问题，提出了一种名为 DebCSE 的新型对比框架，通过逆倾向加权抽样方法选择高质量的正负样本对，以消除各种偏见的影响，从而提高句子嵌入的质量。在语义文本相似性基准测试中，DebCSE 的平均 Spearman 相关系数为 80.33%，显著优于最新的最先进模型。

Sep, 2023

ESimCSE: 对无监督句子嵌入进行对比学习的增强样本构建方法

提出了一种增强的无监督句子嵌入方法 (ESimCSE)，通过简单的文本操作和动量对比，来提高 SimCSE 在句子语义相似度任务方面的性能，与已有的无监督学习方法相比表现更好。

Sep, 2021

对比学习句向量的非语言监督

本文提出了一种多模态多任务的 Transformer 模型，通过对句子和非语言数据对比学习的方式来提高句子编码器的性能，并在基准测试中获得了更高质量的语义文本相似性结果。

Sep, 2022

无监督句子嵌入的自适应对比学习重建

我们提出了一种自适应重建对比句子嵌入（SARCSE）框架，通过使用自动编码器对句子中的所有单词进行重建，帮助模型在聚合单词时保留更多细粒度的语义。实验结果表明，与强基准 SimCSE 相比，SARCSE 在 7 个 STS 任务中取得了显着改进。

Feb, 2024

InfoCSE: 句子嵌入的信息聚合对比学习

本文提出了一种信息聚合的对比学习框架 InfoCSE 用于学习无监督的句子嵌入，该框架引入了一个额外的掩蔽语言模型任务和一个经过精心设计的网络来强制 [CLS] 位置的表示聚合更密集的句子信息，并在语义文本相似性（STS）任务上取得了超越 SimCSE 的表现，平均 Spearman 相关性增加了 2.60％（BERT-base）和 1.77％（BERT-large），成为无监督句子表示学习方法中的最新成果。

Oct, 2022

DiffCSE：基于差异的对比学习用于句向量

本文介绍了 DiffCSE，一个无监督的对比学习框架，可以学习敏感于原始句子和编辑后句子之间差异的句子嵌入，通过朴素的掩码和掩码语言模型中的采样获得编辑后的句子，证明了 DiffSCE 是一种等变对比学习，并在语义文本相似性任务中取得了超越无监督 SimCSE 的最先进结果。

Apr, 2022