AugCSE:多样增强的对比句子嵌入
本文介绍了 DiffCSE,一个无监督的对比学习框架,可以学习敏感于原始句子和编辑后句子之间差异的句子嵌入,通过朴素的掩码和掩码语言模型中的采样获得编辑后的句子,证明了 DiffSCE 是一种等变对比学习,并在语义文本相似性任务中取得了超越无监督 SimCSE 的最先进结果。
Apr, 2022
本文提出三种离散级别的语句数据增强方法(标点符号插入、肯定助动词和双重否定),以实现语义一致性和表达多样性的平衡,从而取得了良好的效果,并在英文和中文语义文本相似性数据集上进行了广泛的实验。
Oct, 2022
本研究提出了 SynCSE,通过利用大型语言模型合成数据样本,训练具有良好性能的句子嵌入,对比试验结果显示 SynCSE 在无监督基准模型的基础上具有更好的性能。
May, 2023
本文提出了一种信息聚合的对比学习框架 InfoCSE 用于学习无监督的句子嵌入,该框架引入了一个额外的掩蔽语言模型任务和一个经过精心设计的网络来强制 [CLS] 位置的表示聚合更密集的句子信息,并在语义文本相似性(STS)任务上取得了超越 SimCSE 的表现,平均 Spearman 相关性增加了 2.60%(BERT-base)和 1.77%(BERT-large),成为无监督句子表示学习方法中的最新成果。
Oct, 2022
本文提出了一种新的文本对比学习方法 ——CARDS,改进了正负样本的质量问题,提出了一种 switch-case augmentation 方式来对抗预训练模型对频率、词形大小写和子词的内在偏态,同时从整个数据集中使用已预训练的语言模型来挖掘难负样本,结果表明该方法在无监督环境下显著优于现有的方法。
Jun, 2022
本文研究了对比学习中存在的偏见问题,提出了一种名为 DebCSE 的新型对比框架,通过逆倾向加权抽样方法选择高质量的正负样本对,以消除各种偏见的影响,从而提高句子嵌入的质量。在语义文本相似性基准测试中,DebCSE 的平均 Spearman 相关系数为 80.33%,显著优于最新的最先进模型。
Sep, 2023
提出了一种增强的无监督句子嵌入方法 (ESimCSE),通过简单的文本操作和动量对比,来提高 SimCSE 在句子语义相似度任务方面的性能,与已有的无监督学习方法相比表现更好。
Sep, 2021
我们提出了一种自适应重建对比句子嵌入(SARCSE)框架,通过使用自动编码器对句子中的所有单词进行重建,帮助模型在聚合单词时保留更多细粒度的语义。实验结果表明,与强基准 SimCSE 相比,SARCSE 在 7 个 STS 任务中取得了显着改进。
Feb, 2024