CLEAR: 句子表示的对比学习

Dec, 2020

CLEAR: Contrastive Learning for Sentence Representation

Zhuofeng Wu, Sinong Wang, Jiatao Gu, Madian Khabsa, Fei Sun...

TL;DR本研究提出了 CLEAR 方法，利用多种句子级别数据增强策略来学习一种噪声不变的句子表示。通过多个实验发现数据增强的不同方法会在下游任务中带来不同的性能提升，并且本方法在 SentEval 和 GLUE 基准测试中的表现优于多种现有方法。

Abstract

pre-trained language models have proven their unique powers in capturing implicit language features. However, most pre-training approaches focus on the word-level training objective, while sentence-level objectives

pre-trained language models sentence-level objectives clear contrastive learning downstream tasks

发现论文，激发创造

基于大型语言模型的语义感知对照句子表示学习

通过利用大型语言模型的生成和评估能力，我们提出了 SemCSR，一种语义感知的对比句子表示框架，可以自动构建高质量的 NLI 风格语料库，并将生成的句子对纳入对比句子表示模型的学习，实验证明了我们提出的框架在使用大型语言模型学习更好的句子表示方面的有效性。

Oct, 2023

无监督句子表示的去偏置对比学习

该研究提出了一种名为 DCLR 的新框架，使用实例加权的方法惩罚误判造成的假负样本，并产生基于噪声的负样本，以确保表示空间的均匀性，提高自监督学习中的句子表示质量，并在七个语义文本相似性任务中实现了显著性能提升。

May, 2022

DeCLUTR: 无监督文本表示的深度对比学习

本文介绍 DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations，是一种无监督的学习通用语句嵌入的方法，其优于仅仅使用大规模数据集。该方法扩展了基于 Transformer 的语言模型的预训练，可以在大量的未标注培训数据下达到可监管培训的质量水平，这个解决方案可以应用于没有标注数据的语言和领域。该研究的代码和预训练模型是公开的，可以轻松地适应新的领域或用于嵌入以前不见过的文本。

Jun, 2020

自然语言推理的对偶级别监督对比学习

本文提出一种基于对偶句子级别的监督对比学习（PairSCL）方法，采用交叉注意力机制学习句子对的联合表示，并使用对比学习目标来区分不同类别的句子对，在两个公共 NLI 数据集上，PairSCL 的准确性平均优于其他方法 2.1％，并在文本分类的七个转移任务上超过了先前的最新方法。

Jan, 2022

使用生成式目标进行语句表示学习，而非对比式目标

本文提出了一种基于短语重构的生成式自监督学习目标，从而在获得上下文化标记级别表示的同时，有效获取句子级别表示，在句子结构的建模上进行了精细的设计，实验结果表明，该方法在语义检索和重排序任务上超越当前最先进的对比方法。

Oct, 2022

对比学习的多语言表征蒸馏

该研究加入对比学习以蒸馏多语言表示，并用于平行语句的质量估计。实验证明，该方法在不同的资源稀少语言上显著优于先前的句子编码器，诸如 LASER 等。

Oct, 2022

可微分数据增强用于对比句子表示学习

本文提出了一种基于对比学习框架的预训练语言模型微调方法，通过硬样本挖掘和使用不同 iable 的数据扩增技术，达到了在无标记或有标记数据上提高句子表示质量的目的。实验证明，该方法在半监督和监督学习设置下都优于现有对比学习方法，并且对标注数据更加高效。

Oct, 2022

自我引导的对比学习方法用于 BERT 句子表示

本文提出使用对比学习的方法，通过自我指导来改善 BERT 的句子表示质量，并将其应用于句子表示学习中。实验证明，与竞争对手的基线相比，我们的方法在广泛的句子相关任务上更加有效，并且在推理时效率高且鲁棒性强。

Jun, 2021

生成还是对比？短语重构用于优化句子表示学习

通过短语重构提出一种新的生成式自监督学习方法，其产生的句子表示在句子文本相似性方面表现与对比式方法相当。

Apr, 2022

CLAR: 对听觉特征的对比学习

本文基于 SimCLR 的前期工作，提出了适用于音频数据的各种数据增强方案，并调查了它们对预测性能的影响，同时证明了采用时频音频特征训练，在监督和对比损失同时约束下的模型可以获得优秀的音频表示。在少量标注数据的情况下，该方法明显地改善了预测性能，同时比自监督训练更快地收敛并具有更好的表示能力。

Oct, 2020