生成还是对比?短语重构用于优化句子表示学习
本文提出了一种基于短语重构的生成式自监督学习目标,从而在获得上下文化标记级别表示的同时,有效获取句子级别表示,在句子结构的建模上进行了精细的设计,实验结果表明,该方法在语义检索和重排序任务上超越当前最先进的对比方法。
Oct, 2022
通过比较对比句子嵌入方法中的标准基准 SimCSE 与计算机视觉社区中被称为维度对比的自监督损失函数和方法,我们发现使用维度对比目标训练的自监督嵌入能够在下游任务中胜过 SimCSE 而无需辅助损失函数。
Oct, 2023
我们提出了一种自适应重建对比句子嵌入(SARCSE)框架,通过使用自动编码器对句子中的所有单词进行重建,帮助模型在聚合单词时保留更多细粒度的语义。实验结果表明,与强基准 SimCSE 相比,SARCSE 在 7 个 STS 任务中取得了显着改进。
Feb, 2024
通过利用大型语言模型的生成和评估能力,我们提出了 SemCSR,一种语义感知的对比句子表示框架,可以自动构建高质量的 NLI 风格语料库,并将生成的句子对纳入对比句子表示模型的学习,实验证明了我们提出的框架在使用大型语言模型学习更好的句子表示方面的有效性。
Oct, 2023
本文提出使用对比学习的方法,通过自我指导来改善 BERT 的句子表示质量,并将其应用于句子表示学习中。实验证明,与竞争对手的基线相比,我们的方法在广泛的句子相关任务上更加有效,并且在推理时效率高且鲁棒性强。
Jun, 2021
该研究探讨了自监督学习技术以获得事件序列的表示,进行了生成方法和对比方法的综合研究,并介绍了一种将生成和对比嵌入对齐的新方法,证明其在各种任务上至少达到现有方法的水平,并且在数据集上一直优于有监督方法。
Jan, 2024
本研究基于自监督对比学习方法,提出了一种名为 InfoCSE 的新型框架,用于解决手工数据注释不可靠的问题,通过迭代的自我监督和数据标注反馈,实现了句子表示模型和数据注释方法的相互协作,有效提高了自监督学习的效果。实验证明,该方法在三个基准数据集上取得了显著的改善。
Feb, 2022
通过引入离散和连续噪声,我们提出了一种新的去噪目标,通过训练模型将噪声句子恢复为其原始形式,从而在语义文本相似性和广泛的迁移任务中实现了有竞争力的结果。
Jan, 2024
本文介绍自监督学习作为深度学习替代方案的优势及其在计算机视觉、自然语言处理和图学习中的应用,分类总结了现有的自监督学习方法,并进一步探讨其相关的理论分析工作,最后简要讨论了自监督学习的未来方向和开放性问题.
Jun, 2020
本研究对自监督学习中采用对比学习方法的常见预训练任务及各种方法进行了广泛的回顾,并通过图像分类,目标检测和动作识别等多个下游任务的性能比较,探讨了当前方法的限制以及未来发展方向。
Oct, 2020