CLEAR: 句子表示的对比学习
通过利用大型语言模型的生成和评估能力,我们提出了 SemCSR,一种语义感知的对比句子表示框架,可以自动构建高质量的 NLI 风格语料库,并将生成的句子对纳入对比句子表示模型的学习,实验证明了我们提出的框架在使用大型语言模型学习更好的句子表示方面的有效性。
Oct, 2023
该研究提出了一种名为 DCLR 的新框架,使用实例加权的方法惩罚误判造成的假负样本,并产生基于噪声的负样本,以确保表示空间的均匀性,提高自监督学习中的句子表示质量,并在七个语义文本相似性任务中实现了显著性能提升。
May, 2022
本文介绍 DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations,是一种无监督的学习通用语句嵌入的方法,其优于仅仅使用大规模数据集。该方法扩展了基于 Transformer 的语言模型的预训练,可以在大量的未标注培训数据下达到可监管培训的质量水平,这个解决方案可以应用于没有标注数据的语言和领域。该研究的代码和预训练模型是公开的,可以轻松地适应新的领域或用于嵌入以前不见过的文本。
Jun, 2020
本文提出一种基于对偶句子级别的监督对比学习(PairSCL)方法,采用交叉注意力机制学习句子对的联合表示,并使用对比学习目标来区分不同类别的句子对,在两个公共 NLI 数据集上,PairSCL 的准确性平均优于其他方法 2.1%,并在文本分类的七个转移任务上超过了先前的最新方法。
Jan, 2022
本文提出了一种基于短语重构的生成式自监督学习目标,从而在获得上下文化标记级别表示的同时,有效获取句子级别表示,在句子结构的建模上进行了精细的设计,实验结果表明,该方法在语义检索和重排序任务上超越当前最先进的对比方法。
Oct, 2022
本文提出了一种基于对比学习框架的预训练语言模型微调方法,通过硬样本挖掘和使用不同 iable 的数据扩增技术,达到了在无标记或有标记数据上提高句子表示质量的目的。实验证明,该方法在半监督和监督学习设置下都优于现有对比学习方法,并且对标注数据更加高效。
Oct, 2022
本文提出使用对比学习的方法,通过自我指导来改善 BERT 的句子表示质量,并将其应用于句子表示学习中。实验证明,与竞争对手的基线相比,我们的方法在广泛的句子相关任务上更加有效,并且在推理时效率高且鲁棒性强。
Jun, 2021
本文基于 SimCLR 的前期工作,提出了适用于音频数据的各种数据增强方案,并调查了它们对预测性能的影响,同时证明了采用时频音频特征训练,在监督和对比损失同时约束下的模型可以获得优秀的音频表示。在少量标注数据的情况下,该方法明显地改善了预测性能,同时比自监督训练更快地收敛并具有更好的表示能力。
Oct, 2020