使用监督对比学习的句子嵌入

Jun, 2021

Sentence Embeddings using Supervised Contrastive Learning

Danqi Liao

TL;DR本文提出了一种使用对比学习进行监督学习 Fine-tuning 预训练 BERT 模型以创建高效句子嵌入的新方法，相比于只使用基于交叉熵的监督学习的当前最先进方法 SBERT，我们的方法可以在句子转换和语义文本相似度基准测试上改进 2.8％和 1.05％。

Abstract

sentence embeddings encode sentences in fixed dense vectors and have played an important role in various NLP tasks and systems. Methods for building sentence embeddings include →

sentence embeddings bert unsupervised learning supervised learning contrastive learning

发现论文，激发创造

自我引导的对比学习方法用于 BERT 句子表示

本文提出使用对比学习的方法，通过自我指导来改善 BERT 的句子表示质量，并将其应用于句子表示学习中。实验证明，与竞争对手的基线相比，我们的方法在广泛的句子相关任务上更加有效，并且在推理时效率高且鲁棒性强。

Jun, 2021

对比学习句向量的非语言监督

本文提出了一种多模态多任务的 Transformer 模型，通过对句子和非语言数据对比学习的方式来提高句子编码器的性能，并在基准测试中获得了更高质量的语义文本相似性结果。

Sep, 2022

SNCSE: 无监督句子嵌入的对比学习与软负样本

本文通过引入软负样本和双向边缘损失来改善当前无监督对比学习中的特征抑制问题，在语义文本相似度任务上取得了最优结果。

Jan, 2022

ConSERT：自监督句子表示转移的对比框架

本文提出了一种对 BERT 进行自监督 fine-tune 的对比学习框架 ConSERT，通过利用无标签文本解决 BERT 生成句子表示时的崩溃问题，进而提高了 sentence representations 的应用性能，实验结果表明在 STS 任务上优于之前的 SOTA 达 8%，并且在与 1000 份样本的情况下表现稳健。

May, 2021

迭代精化编码器中的自然语言推理句子嵌入

本研究提出了一种双向长短时记忆网络（BiLSTM）和最大池化层的分层策略，为各种自然语言处理任务提供高效的分层表征，并在多项评估任务中超越 InferSent 和 SkipThought，特别是在评估句子表征中语言特性捕捉的能力方面，优于 InferSent 模型。

Aug, 2018

从零开始对句子嵌入进行对比学习

本研究提出了 SynCSE，通过利用大型语言模型合成数据样本，训练具有良好性能的句子嵌入，对比试验结果显示 SynCSE 在无监督基准模型的基础上具有更好的性能。

May, 2023

自然语言推理的对偶级别监督对比学习

本文提出一种基于对偶句子级别的监督对比学习（PairSCL）方法，采用交叉注意力机制学习句子对的联合表示，并使用对比学习目标来区分不同类别的句子对，在两个公共 NLI 数据集上，PairSCL 的准确性平均优于其他方法 2.1％，并在文本分类的七个转移任务上超过了先前的最新方法。

Jan, 2022

从自然语言推理数据中监督学习通用句子表示

本研究探讨了利用 Stanford 自然语言推断数据集的监督学习训练通用句子向量表示，相比于 SkipThought 等无监督方法，该方式在多种迁移学习任务中表现更优，因此表明自然语言推断适用于迁移学习。

May, 2017

基于大型语言模型的语义感知对照句子表示学习

通过利用大型语言模型的生成和评估能力，我们提出了 SemCSR，一种语义感知的对比句子表示框架，可以自动构建高质量的 NLI 风格语料库，并将生成的句子对纳入对比句子表示模型的学习，实验证明了我们提出的框架在使用大型语言模型学习更好的句子表示方面的有效性。

Oct, 2023

来自不同监督信号的句子嵌入的比较和组合

本文探讨了两种类型的句子嵌入方法对于语义文本相似度任务性能的影响，发现 fine-tunes 预训练语言模型在自然语言推断和单词预测任务中使用能够提高性能，而且将两种方法相结合能够比单个方法取得更好的效果。

Feb, 2022