通过人工智能反馈提高对比学习句子嵌入

May, 2023

通过人工智能反馈提高对比学习句子嵌入

Improving Contrastive Learning of Sentence Embeddings from AI Feedback

Qinyuan Cheng, Xiaogui Yang, Tianxiang Sun, Linyang Li, Xipeng Qiu

TL;DRCLAIF 方法：利用大型预训练语言模型的人工智能反馈来构建有细粒度样本相似度得分的样本对以改善对比学习，并结合人工反馈和 AI 反馈提供更好的训练信号，实验结果显示在语义文本相似性和迁移学习任务上，与其他半监督和监督对比学习方法比较，CLAIF 实现了最先进的性能。

Abstract

contrastive learning has become a popular approach in natural language processing, particularly for the learning of sentence embeddings. However, the discrete nature of natural language makes it difficult to ensu

contrastive learning natural language processing sentence embeddings ai feedback supervised contrastive learning

发现论文，激发创造

预训练句子嵌入的相互强化框架

本研究基于自监督对比学习方法，提出了一种名为 InfoCSE 的新型框架，用于解决手工数据注释不可靠的问题，通过迭代的自我监督和数据标注反馈，实现了句子表示模型和数据注释方法的相互协作，有效提高了自监督学习的效果。实验证明，该方法在三个基准数据集上取得了显著的改善。

Feb, 2022

基于大型语言模型的语义感知对照句子表示学习

通过利用大型语言模型的生成和评估能力，我们提出了 SemCSR，一种语义感知的对比句子表示框架，可以自动构建高质量的 NLI 风格语料库，并将生成的句子对纳入对比句子表示模型的学习，实验证明了我们提出的框架在使用大型语言模型学习更好的句子表示方面的有效性。

Oct, 2023

自然语言推理的对偶级别监督对比学习

本文提出一种基于对偶句子级别的监督对比学习（PairSCL）方法，采用交叉注意力机制学习句子对的联合表示，并使用对比学习目标来区分不同类别的句子对，在两个公共 NLI 数据集上，PairSCL 的准确性平均优于其他方法 2.1％，并在文本分类的七个转移任务上超过了先前的最新方法。

Jan, 2022

从零开始对句子嵌入进行对比学习

本研究提出了 SynCSE，通过利用大型语言模型合成数据样本，训练具有良好性能的句子嵌入，对比试验结果显示 SynCSE 在无监督基准模型的基础上具有更好的性能。

May, 2023

使用监督对比学习的句子嵌入

本文提出了一种使用对比学习进行监督学习 Fine-tuning 预训练 BERT 模型以创建高效句子嵌入的新方法，相比于只使用基于交叉熵的监督学习的当前最先进方法 SBERT，我们的方法可以在句子转换和语义文本相似度基准测试上改进 2.8％和 1.05％。

Jun, 2021

利用引用嵌入的邻域对比学习科学文献表征

本文提出了一种通过对比学习来改善科学文档表示的方法 —— 使用引文图嵌入进行所控制的最近邻抽样来学习连续的相似度，内容主要涉及对比学习、科学文档表示、引文图嵌入、相似度语义以及相关研究。

Feb, 2022

PCL: 多样增强的同行对比学习用于无监督句子嵌入

本文提出了一种多增强策略下的同伴对照学习（PCL），以构造对比配对并构建无监督的句子嵌入，其表现优于其他与之竞争的句子嵌入方法。

Jan, 2022

对抗样本的对比学习

本文提出了一种针对对抗性对比学习的新算法 CLAE，通过使用对抗性样本增强数据并在优化时考虑一个批次中的所有图片，能够更好地定义正负样本，充分提高自监督学习任务的性能和学习能力。

Oct, 2020

自我引导的对比学习方法用于 BERT 句子表示

本文提出使用对比学习的方法，通过自我指导来改善 BERT 的句子表示质量，并将其应用于句子表示学习中。实验证明，与竞争对手的基线相比，我们的方法在广泛的句子相关任务上更加有效，并且在推理时效率高且鲁棒性强。

Jun, 2021

可微分数据增强用于对比句子表示学习

本文提出了一种基于对比学习框架的预训练语言模型微调方法，通过硬样本挖掘和使用不同 iable 的数据扩增技术，达到了在无标记或有标记数据上提高句子表示质量的目的。实验证明，该方法在半监督和监督学习设置下都优于现有对比学习方法，并且对标注数据更加高效。

Oct, 2022