从零开始对句子嵌入进行对比学习

May, 2023

从零开始对句子嵌入进行对比学习

Contrastive Learning of Sentence Embeddings from Scratch

Junlei Zhang, Zhenzhong Lan, Junxian He

TL;DR本研究提出了 SynCSE，通过利用大型语言模型合成数据样本，训练具有良好性能的句子嵌入，对比试验结果显示 SynCSE 在无监督基准模型的基础上具有更好的性能。

Abstract

contrastive learning has been the dominant approach to train state-of-the-art sentence embeddings. Previous studies have typically learned sentence embeddings either through the use of human-annotated natural lan

contrastive learning sentence embeddings syncse large language models unsupervised learning

发现论文，激发创造

SimCSE: 简单的对比学习句子嵌入

本文介绍了一种简单的对比学习框架 SimCSE，通过无监督和监督学习两种方法，显著提高了句子嵌入的性能，适用于语义文本相似性任务。

Apr, 2021

基于大型语言模型的语义感知对照句子表示学习

通过利用大型语言模型的生成和评估能力，我们提出了 SemCSR，一种语义感知的对比句子表示框架，可以自动构建高质量的 NLI 风格语料库，并将生成的句子对纳入对比句子表示模型的学习，实验证明了我们提出的框架在使用大型语言模型学习更好的句子表示方面的有效性。

Oct, 2023

SNCSE: 无监督句子嵌入的对比学习与软负样本

本文通过引入软负样本和双向边缘损失来改善当前无监督对比学习中的特征抑制问题，在语义文本相似度任务上取得了最优结果。

Jan, 2022

预训练句子嵌入的相互强化框架

本研究基于自监督对比学习方法，提出了一种名为 InfoCSE 的新型框架，用于解决手工数据注释不可靠的问题，通过迭代的自我监督和数据标注反馈，实现了句子表示模型和数据注释方法的相互协作，有效提高了自监督学习的效果。实验证明，该方法在三个基准数据集上取得了显著的改善。

Feb, 2022

DebCSE：从去偏见的角度重新思考无监督对比句嵌入学习

本文研究了对比学习中存在的偏见问题，提出了一种名为 DebCSE 的新型对比框架，通过逆倾向加权抽样方法选择高质量的正负样本对，以消除各种偏见的影响，从而提高句子嵌入的质量。在语义文本相似性基准测试中，DebCSE 的平均 Spearman 相关系数为 80.33%，显著优于最新的最先进模型。

Sep, 2023

InfoCSE: 句子嵌入的信息聚合对比学习

本文提出了一种信息聚合的对比学习框架 InfoCSE 用于学习无监督的句子嵌入，该框架引入了一个额外的掩蔽语言模型任务和一个经过精心设计的网络来强制 [CLS] 位置的表示聚合更密集的句子信息，并在语义文本相似性（STS）任务上取得了超越 SimCSE 的表现，平均 Spearman 相关性增加了 2.60％（BERT-base）和 1.77％（BERT-large），成为无监督句子表示学习方法中的最新成果。

Oct, 2022

JCSE: 日语句子嵌入对比学习及其应用

我们提出了一种针对日语的句子表示模型 JCSE 进行领域自适应学习的新方法，通过在源域中生成语句并将其与目标域中的语句合成，生成用于对比学习的矛盾句对，优于直接迁移的其他训练策略，以及在低资源语言的下游任务中有实际应用的效果。

Jan, 2023

对比学习能够学习通用的跨语言句子嵌入

本文提出了 mSimCSE，在英文数据上进行对比学习，不需要平行数据，可以学习高质量的通用跨语种句子嵌入。在无监督和弱监督设置中，mSimCSE 在跨语种检索和多语 STS 任务上显著改进了先前的句子嵌入方法。在检索低资源语言和多语 STS 任务上，无监督的 mSimCSE 表现与完全监督的方法相当。当跨语言 NLI 数据可用时，性能可以进一步提高。

Nov, 2022

DiffCSE：基于差异的对比学习用于句向量

本文介绍了 DiffCSE，一个无监督的对比学习框架，可以学习敏感于原始句子和编辑后句子之间差异的句子嵌入，通过朴素的掩码和掩码语言模型中的采样获得编辑后的句子，证明了 DiffSCE 是一种等变对比学习，并在语义文本相似性任务中取得了超越无监督 SimCSE 的最先进结果。

Apr, 2022

生成、判别和对比：半监督句子表示学习框架

本文提出了一种半监督句子嵌入框架 GenSE，通过使用大规模无标注数据，利用生成器 / 鉴别器模型进行句子对的合成和对比学习，实现对带标签和合成数据的句子表示学习，相对于目前最先进的方法，在四项领域适应任务上具有显着的性能提升，平均相关性得分为 85.19，证明了其高效性和一般化能力。

Oct, 2022