SupCL-Seq: 下游优化序列表示的有监督对比学习

EMNLPSep, 2021

SupCL-Seq: 下游优化序列表示的有监督对比学习

SupCL-Seq: Supervised Contrastive Learning for Downstream Optimized Sequence Representations

Hooman Sedghamiz, Shivam Raval, Enrico Santus, Tuka Alhanai, Mohammad Ghassemi

TL;DR本文介绍了 SupCL-Seq，这是一种扩展了计算机视觉中的监督对比学习方法，应用于优化自然语言处理中的序列表示。通过改变标准 Transformer 架构中的 dropout 掩码概率，在每个表示（锚）上生成增强的变形视图，并使用监督对比损失来最大化系统将相似样本（例如，锚和它们的变形视图）拉拢在一起并将属于其它类别的样本推开的能力。相较于标准 BERTbase 模型，在 GLUE 基准测试中的许多序列分类任务中取得了显著提升，包括 CoLA 上的 6％、MRPC 上的 5.4％、RTE 上的 4.7％和 STSB 上的 2.6％，特别是在非语义任务中，相对于自监督对比学习表示也表现出了一致增长。最后，我们展示了这些增益并不仅仅是由于数据增广，而是由于下游优化的序列表示。

Abstract

While contrastive learning is proven to be an effective training strategy in computer vision, natural language processing (NLP) is only recently adopting it as a self-supervised alternative to Masked Language Mod

contrastive learning natural language processing supervised contrastive learning transformer architectures sequence classification

发现论文，激发创造

文本识别的序列对序列对比学习

提出一种基于序列对序列对比学习框架 (SeqCLR) 的视觉表征方法，应用于文本识别，可实现在子单词级别上对比，并进一步建议新颖的数据增广启发式方法、不同的编码器架构和定制投影头来获得对于文本识别而言的有效视觉表征。在手写文本和场景文本上的实验结果表明，与非序列对比方法相比，当训练文本解码器的表征时，我们的方法表现出更好的性能。另外，当减少监督量时，SeqCLR 与有监督的训练相比，明显提高了性能，在 100％的标签下微调后，我们的方法在标准手写文本识别基准上取得了最佳结果。

Dec, 2020

时间序列预测中构成良好对比学习的因素是什么？

本文通过系统分析不同的自监督对比学习策略及变量间的相互作用，发现使用 Transformer 模型综合优化 Mean Squared Error (MSE) 损失和自监督对比学习 (SSCL) 是进行时间序列预测的最有效的方法，并可优化预测结果的准确性。

Jun, 2023

监督对比学习

本文介绍了一种基于对比学习的自我监督表征学习方法，并将其推广到全监督设置中。其中，相同类别的样本点在嵌入空间中被拉在一起，而来自不同类别的样本则被同时推开，以实现更好的分类性能。实现简单，最佳损失函数表现优于交叉熵。

Apr, 2020

对比自监督学习中的文本转换方法综述

本综述论文探讨了如何在自监督学习中使用对比学习方法来改善文本表示学习，并介绍了现有方法的优缺点和局限性。

Mar, 2022

带有噪声标签的选择性监督对比学习

本文提出了一种选择性有监督对比学习（Sel-CL）方法，通过筛选可信样本减少噪声标签对表示学习的影响，改善只依赖高质量标注数据的有监督对比学习算法中噪声标签导致的泛化性能差的问题。实验证明该方法在多个噪声数据集上均具有鲁棒性且表现优于现有方法。

Mar, 2022

Auto-MLM: 自监督多语言知识检索的改进对比学习

本文提出一种结合对比学习和自动编码器掩码语言模型的联合训练方法，用于自我监督多语言知识检索，通过生成新的标记表示来预测掩码标记，实验结果表明，在 8 种语言上，我们的提出的方法在 AliExpress 和 LAZADA 服务语料库和公开可用的语料库上都 consistently 超过了所有先前的 SOTA 方法。

Mar, 2022

使用对比双向变换器学习视频表示

本文提出了一种自监督学习方法，用于视频特征，与现有方法相比在下游任务中表现显著提高，通过将文本序列的 BERT 模型扩展到实值特征向量序列的情况，以噪声对比估计取代 softma 损失函数，同时展示了如何从可视特征序列和 ASR 派生的词序列中学习表示，并且表明这样的跨模态训练可以进一步提高性能。

Jun, 2019

序列推荐的图形掩蔽自编码器

提出了一种简单而有效的图蒙版自编码器，通过自监督学习来自适应动态提取全局项转换信息，在顺序推荐中进行信息增强。

May, 2023

视觉表示对比学习的简单框架

SimCLR 是一种简单的对比学习框架，通过定义有效的预测任务、引入可学习的非线性变换以及使用大型批次和更多的训练步骤来提高对比学习的效果，在 ImageNet 数据集上实现了比以往方法更好的自监督和半监督学习结果。

Feb, 2020

视觉语言预训练的改进基线

本文中，我们提出了一些基线模型，将对比学习与最近的自监督学习进展相结合，用于生成多模态表示。除了使用对比性损失，我们还使用了已被证明对视觉自监督学习成功的损失函数来对齐图像和文本模态。而使用更有效的数据增广技术可以提高模型性能，使我们在四个标准数据集上获得了最先进的性能。

May, 2023