改进聚类句子嵌入的对比学习与焦点信息交叉熵

EMNLPOct, 2023

改进聚类句子嵌入的对比学习与焦点信息交叉熵

Improving Contrastive Learning of Sentence Embeddings with Focal-InfoNCE

Pengyue Hou, Xingyu Li

TL;DR该研究提出了一个无监督对比学习框架，将 SimCSE 与难负样本挖掘相结合，旨在增强句子嵌入的质量。在各种 STS 基准测试上的实验表明，我们的方法在 Spearman 相关性和表示对齐性和一致性方面改进了句子嵌入。

Abstract

The recent success of simcse has greatly advanced state-of-the-art sentence representations. However, the original formulation of simcse does not fully exploit the potential of hard negative samples in

simcse contrastive learning hard negative mining sentence embeddings spearman's correlation

发现论文，激发创造

InfoCSE: 句子嵌入的信息聚合对比学习

本文提出了一种信息聚合的对比学习框架 InfoCSE 用于学习无监督的句子嵌入，该框架引入了一个额外的掩蔽语言模型任务和一个经过精心设计的网络来强制 [CLS] 位置的表示聚合更密集的句子信息，并在语义文本相似性（STS）任务上取得了超越 SimCSE 的表现，平均 Spearman 相关性增加了 2.60％（BERT-base）和 1.77％（BERT-large），成为无监督句子表示学习方法中的最新成果。

Oct, 2022

平滑对比学习用于无监督句子嵌入

该论文提出了一种简单有效的平滑策略 (Gaussian Smoothing InfoNCE)，以解决在使用较大 batch size 时信息噪声过多导致性能下降的问题，在标准语义文本相似度任务 (STS) 上表现超过了目前最先进的无监督学习方法 (unsup-SimCSE)

Sep, 2021

SNCSE: 无监督句子嵌入的对比学习与软负样本

本文通过引入软负样本和双向边缘损失来改善当前无监督对比学习中的特征抑制问题，在语义文本相似度任务上取得了最优结果。

Jan, 2022

SimCSE: 简单的对比学习句子嵌入

本文介绍了一种简单的对比学习框架 SimCSE，通过无监督和监督学习两种方法，显著提高了句子嵌入的性能，适用于语义文本相似性任务。

Apr, 2021

预训练句子嵌入的相互强化框架

本研究基于自监督对比学习方法，提出了一种名为 InfoCSE 的新型框架，用于解决手工数据注释不可靠的问题，通过迭代的自我监督和数据标注反馈，实现了句子表示模型和数据注释方法的相互协作，有效提高了自监督学习的效果。实验证明，该方法在三个基准数据集上取得了显著的改善。

Feb, 2022

基于信息最小化的对比学习模型用于无监督句向量学习

利用信息最小化的对比学习模型 (InforMin-CL) 实现了无监督句子表示学习，通过最大化正实例之间的互信息并最小化其信息熵来保留有用信息和丢弃多余信息。实验结果表明，该模型在包括监督和无监督任务在内的十四个下游任务中取得了最先进的性能。

Sep, 2022

miCSE: 低样本句子嵌入的互信息对比学习

该论文介绍了基于信息熵的对比学习框架 miCSE，它在少样本学习的句子嵌入方面取得了显著进展，并对多个基准数据集优于其他现有方法，是一种简单易实现的自监督学习方法，将打开更为高效而强大的自监督学习方法以实现更好的句子嵌入。

Nov, 2022

ImSimCSE：从两个角度改进句子嵌入的对比学习

本文从处理 dropout 噪声和解决特征损坏两个角度，提出了两种改进对比学习的方法，均能提高句子嵌入的性能，实验证明，将两种方法结合使用，相较于基于 BERT 基础的强基线模型 SimCSE，性能提升了 1.8 个点；同时，这些方法还能适用于 DiffCSE 等其他有着强鲁棒性的模型。

May, 2023

DebCSE：从去偏见的角度重新思考无监督对比句嵌入学习

本文研究了对比学习中存在的偏见问题，提出了一种名为 DebCSE 的新型对比框架，通过逆倾向加权抽样方法选择高质量的正负样本对，以消除各种偏见的影响，从而提高句子嵌入的质量。在语义文本相似性基准测试中，DebCSE 的平均 Spearman 相关系数为 80.33%，显著优于最新的最先进模型。

Sep, 2023

从零开始对句子嵌入进行对比学习

本研究提出了 SynCSE，通过利用大型语言模型合成数据样本，训练具有良好性能的句子嵌入，对比试验结果显示 SynCSE 在无监督基准模型的基础上具有更好的性能。

May, 2023