本文介绍了一种简单的对比学习框架 SimCSE,通过无监督和监督学习两种方法,显著提高了句子嵌入的性能,适用于语义文本相似性任务。
Apr, 2021
本文通过引入软负样本和双向边缘损失来改善当前无监督对比学习中的特征抑制问题,在语义文本相似度任务上取得了最优结果。
Jan, 2022
通过比较对比句子嵌入方法中的标准基准 SimCSE 与计算机视觉社区中被称为维度对比的自监督损失函数和方法,我们发现使用维度对比目标训练的自监督嵌入能够在下游任务中胜过 SimCSE 而无需辅助损失函数。
Oct, 2023
该论文提出了一种简单有效的平滑策略 (Gaussian Smoothing InfoNCE),以解决在使用较大 batch size 时信息噪声过多导致性能下降的问题,在标准语义文本相似度任务 (STS) 上表现超过了目前最先进的无监督学习方法 (unsup-SimCSE)
Sep, 2021
本文研究了对比学习中存在的偏见问题,提出了一种名为 DebCSE 的新型对比框架,通过逆倾向加权抽样方法选择高质量的正负样本对,以消除各种偏见的影响,从而提高句子嵌入的质量。在语义文本相似性基准测试中,DebCSE 的平均 Spearman 相关系数为 80.33%,显著优于最新的最先进模型。
Sep, 2023
提出了一种增强的无监督句子嵌入方法 (ESimCSE),通过简单的文本操作和动量对比,来提高 SimCSE 在句子语义相似度任务方面的性能,与已有的无监督学习方法相比表现更好。
本文提出了一种多模态多任务的 Transformer 模型,通过对句子和非语言数据对比学习的方式来提高句子编码器的性能,并在基准测试中获得了更高质量的语义文本相似性结果。
Sep, 2022
我们提出了一种自适应重建对比句子嵌入(SARCSE)框架,通过使用自动编码器对句子中的所有单词进行重建,帮助模型在聚合单词时保留更多细粒度的语义。实验结果表明,与强基准 SimCSE 相比,SARCSE 在 7 个 STS 任务中取得了显着改进。
Feb, 2024
本文提出了一种信息聚合的对比学习框架 InfoCSE 用于学习无监督的句子嵌入,该框架引入了一个额外的掩蔽语言模型任务和一个经过精心设计的网络来强制 [CLS] 位置的表示聚合更密集的句子信息,并在语义文本相似性(STS)任务上取得了超越 SimCSE 的表现,平均 Spearman 相关性增加了 2.60%(BERT-base)和 1.77%(BERT-large),成为无监督句子表示学习方法中的最新成果。
Oct, 2022
本文介绍了 DiffCSE,一个无监督的对比学习框架,可以学习敏感于原始句子和编辑后句子之间差异的句子嵌入,通过朴素的掩码和掩码语言模型中的采样获得编辑后的句子,证明了 DiffSCE 是一种等变对比学习,并在语义文本相似性任务中取得了超越无监督 SimCSE 的最先进结果。
Apr, 2022