减轻非监督句子表示中的过度平滑
本研究基于自监督对比学习方法,提出了一种名为 InfoCSE 的新型框架,用于解决手工数据注释不可靠的问题,通过迭代的自我监督和数据标注反馈,实现了句子表示模型和数据注释方法的相互协作,有效提高了自监督学习的效果。实验证明,该方法在三个基准数据集上取得了显著的改善。
Feb, 2022
该研究提出了一种名为 DCLR 的新框架,使用实例加权的方法惩罚误判造成的假负样本,并产生基于噪声的负样本,以确保表示空间的均匀性,提高自监督学习中的句子表示质量,并在七个语义文本相似性任务中实现了显著性能提升。
May, 2022
通过利用大型语言模型的生成和评估能力,我们提出了 SemCSR,一种语义感知的对比句子表示框架,可以自动构建高质量的 NLI 风格语料库,并将生成的句子对纳入对比句子表示模型的学习,实验证明了我们提出的框架在使用大型语言模型学习更好的句子表示方面的有效性。
Oct, 2023
本文提出了一种称为 ESCL 的方法,该方法通过等变学习任务鼓励学习到的表示对某些类型的转换敏感,从而利用敏感的变换,以改善语义文本相似度任务的对比学习,并且通过在多任务学习的角度上共享模型参数来简化算法实现。最终的结果表明,该方法与以前的方法相比在使用更少的学习参数的情况下可以获得更好的结果。
Mar, 2023
我们提出了一种称为自监督跨视图训练(SCT)的框架,以缩小大型和小型预训练语言模型(PLM)之间性能差距,并在 7 个语义文本相似性(STS)基准测试中通过与 5 个基准和最先进的竞争对手的比较,在参数数量从 4M 到 340M 范围内的 5 个 PLMs 上证明 STC 在 21 个案例中的 18 个中胜过竞争对手,对于参数少于 100M 的 PLMs 表现出色。
Nov, 2023
本文通过系统分析不同的自监督对比学习策略及变量间的相互作用,发现使用 Transformer 模型综合优化 Mean Squared Error (MSE) 损失和自监督对比学习 (SSCL) 是进行时间序列预测的最有效的方法,并可优化预测结果的准确性。
Jun, 2023
通过语义图平滑,在经验上探索一种无监督学习更判别句子表示方法的方法。利用预训练模型得到的句子嵌入来提高文本聚类和分类任务的结果。经验证,我们的方法在八个基准测试中表现出一致的改进,展示了语义图平滑在改进句子嵌入用于监督和无监督的文档分类任务中的潜力。
Feb, 2024
本研究提出自我对比学习算法,并将其应用于会话推荐问题中,以优化物品表示空间的均匀度和减少模型复杂度,进而实现比之前的算法更好的预测性能。研究证明,该算法不需要额外的采样和数据增强操作,并在三个基准数据集上得到了统计上显著的性能提升。
Jun, 2023
通过比较对比句子嵌入方法中的标准基准 SimCSE 与计算机视觉社区中被称为维度对比的自监督损失函数和方法,我们发现使用维度对比目标训练的自监督嵌入能够在下游任务中胜过 SimCSE 而无需辅助损失函数。
Oct, 2023