文本识别的序列对序列对比学习

Dec, 2020

Sequence-to-Sequence Contrastive Learning for Text Recognition

Aviad Aberdam, Ron Litman, Shahar Tsiper, Oron Anschel, Ron Slossberg...

TL;DR提出一种基于序列对序列对比学习框架 (SeqCLR) 的视觉表征方法，应用于文本识别，可实现在子单词级别上对比，并进一步建议新颖的数据增广启发式方法、不同的编码器架构和定制投影头来获得对于文本识别而言的有效视觉表征。在手写文本和场景文本上的实验结果表明，与非序列对比方法相比，当训练文本解码器的表征时，我们的方法表现出更好的性能。另外，当减少监督量时，SeqCLR 与有监督的训练相比，明显提高了性能，在 100％的标签下微调后，我们的方法在标准手写文本识别基准上取得了最佳结果。

Abstract

We propose a framework for sequence-to-sequence contrastive learning (SeqCLR) of visual representations, which we apply to text recognition

sequence-to-sequence contrastive learning visual representations text recognition sub-word level augmentation heuristics

发现论文，激发创造

SupCL-Seq: 下游优化序列表示的有监督对比学习

本文介绍了 SupCL-Seq，这是一种扩展了计算机视觉中的监督对比学习方法，应用于优化自然语言处理中的序列表示。通过改变标准 Transformer 架构中的 dropout 掩码概率，在每个表示（锚）上生成增强的变形视图，并使用监督对比损失来最大化系统将相似样本（例如，锚和它们的变形视图）拉拢在一起并将属于其它类别的样本推开的能力。相较于标准 BERTbase 模型，在 GLUE 基准测试中的许多序列分类任务中取得了显著提升，包括 CoLA 上的 6％、MRPC 上的 5.4％、RTE 上的 4.7％和 STSB 上的 2.6％，特别是在非语义任务中，相对于自监督对比学习表示也表现出了一致增长。最后，我们展示了这些增益并不仅仅是由于数据增广，而是由于下游优化的序列表示。

Sep, 2021

评估序列到序列模型在手写文本识别中的应用

该研究提出了一种基于注意力机制的序列到序列模型用于手写体识别，其中结合了卷积神经网络进行视觉信息的提取，实验结果表明其相比于最近的序列到序列方法取得了显著提升。

Mar, 2019

文本摘要的序列级对比学习

本文提出了一种对比学习模型，用于文本摘要的有监督抽象，通过将文档、其黄金摘要和模型生成的摘要视为同一平均表示的不同视图，并在训练过程中最大化它们之间的相似性，从而改进了强序列到序列的文本生成模型（即 BART）。人类评估也显示，我们的模型与没有对比目标的对应模型相比，实现了更好的忠实度评分。

Sep, 2021

视觉表示对比学习的简单框架

SimCLR 是一种简单的对比学习框架，通过定义有效的预测任务、引入可学习的非线性变换以及使用大型批次和更多的训练步骤来提高对比学习的效果，在 ImageNet 数据集上实现了比以往方法更好的自监督和半监督学习结果。

Feb, 2020

TempCLR：具有对比学习的时间对齐表示法

该论文提出了一种对全视频和段落进行显式比较的对比学习框架 TempCLR，通过使用动态时间规整来计算句子 - 剪辑对的最小累积成本作为序列级距离，它可以探索时间动态，并在视频检索、行动步骤定位和少量动作识别等任务中实现了一致的性能提升。

Dec, 2022

端到端可训练的基于图像序列识别的神经网络及其在场景文本识别中的应用

本文提出了一种新颖的神经网络架构，将特征提取、序列建模和转录集成到统一框架中，用于场景文本识别，相比现有算法其具有端到端训练，不需要一定的词典限制，更加适合实际应用等优点，在标准测试数据上展现出更好的性能。

Jul, 2015

TCLR: 视频表征的时序对比学习

本研究提出了一种新的时间对比学习框架，采用两个新的损失函数以提高现有自监督视频表示学习方法的性能，其中局部 - 局部时间对比损失和全局 - 局部时间对比损失实现了在各种下游视频理解任务中的显着改进。

Jan, 2021

从模型学习视觉：模型对抗学习视觉

通过合成图像和合成标题无需真实数据地学习视觉表征，SynCLR 方法在对合成图像进行对比学习的基础上，将得到的表征在多个下游任务中转移，与其他通用视觉表征学习算法相比，在图像分类任务中表现出色；此外，在诸如语义分割等密集预测任务中，SynCLR 比以往自监督方法有显著优势。

Dec, 2023

全局背景下的视频对比学习

该研究提出了一种基于段落的视频级对比学习方法，它使用全局上下文形成正样本，同时还结合了一个时间顺序正则化项来确保视频的时序结构，实验证明该方法在动作分类、动作定位和视频检索等任务上能够超越现有的最先进方法。

Aug, 2021

时间序列预测中构成良好对比学习的因素是什么？

本文通过系统分析不同的自监督对比学习策略及变量间的相互作用，发现使用 Transformer 模型综合优化 Mean Squared Error (MSE) 损失和自监督对比学习 (SSCL) 是进行时间序列预测的最有效的方法，并可优化预测结果的准确性。

Jun, 2023