基于对称重叠建模的自监督预训练在场景文本识别中的应用

IJCAIMay, 2024

基于对称重叠建模的自监督预训练在场景文本识别中的应用

Self-Supervised Pre-training with Symmetric Superimposition Modeling for Scene Text Recognition

Zuan Gao, Yuxin Wang, Yadong Qu, Boqiang Zhang, Zixiao Wang...

TL;DR通过 Symmetric Superimposition Modeling (SSM) 方法，该研究致力于同步捕捉文本图像中的字符特征和语言信息，并在各种文本识别基准测试中展示了其有效性和广泛性，以平均 4.1% 的性能提升和 86.6% 的新的 Union14M 基准平均字词准确性成果。

Abstract

In text recognition, self-supervised pre-training emerges as a good solution to reduce dependence on expansive annotated real data. Previous studies primarily focus on local visual representation by leveraging ma

text recognition self-supervised pre-training linguistic information symmetric superimposition modeling character shapes

发现论文，激发创造

多模态半监督学习文本识别

该文章提出了一种半监督的多模态文本识别方法（SemiMTR），通过使用自监督学习和监督学习相结合的单一阶段，将现有的多模态场景文本识别方法拓展到了未标注数据的应用。该算法利用对视觉模型的预训练和语言模型的微调，同时在每个模态单独地应用连续性正则化方法进行训练，取得了在多个场景文本识别基准测试上的最新成果。

May, 2022

在线手写文本分类的自监督表示学习

通过自我监督学习从未标注的数据中提取丰富的表示，避免了对大规模数据集的标注成本。本研究针对在线手写文本的不断发展应用，提出了一种新颖的基于笔画部分遮罩的预训练任务 (POSM)，用于从英语和汉语两种语言的个人在线手写中提取信息丰富的表示，以及两种建议的微调预训练模型的流程。为了评估提取表示的质量，我们使用内在和外在评估方法。微调预训练模型可实现诸如作者识别、性别分类和利手性分类等任务的最新成果，并凸显了利用预训练模型优于从头开始训练模型的优点。

Oct, 2023

自监督文本识别的判别性和生成性建模：阅读与写作

本文提出一种基于对比学习和遮挡图像建模的自监督文本识别方法，实验结果显示，该方法在不规则场景文本识别数据集上优于之前的自监督文本识别方法 10.2％-20.2％，同时，在 11 个基准测试中，该文本识别器的表现也超过了之前的最新方法平均 5.3％，且能够轻松适用于其他文本相关任务。

Jul, 2022

无监督异常检测和定位的自监督遮掩

这篇论文提出了一种名为 “自监督遮盖” 的无监督异常检测和定位方法，通过随机遮盖和恢复来扩展基于重建的异常检测架构，并引入了渐进式遮盖细化方法来进一步提高检测和定位效率和效果。

May, 2022

视觉语言预训练的单流多级对齐

利用对比损失进行的自监督视觉 - 语言预训练虽然有效，但由于双流体系结构仅在全局层面上对齐图像和文本表示法，因此忽略了细粒度对齐。本文提出了一种单通道体系结构，使用两个新任务在多个层次（即全局、细粒度图块 - 令牌和概念 / 语义层次）上对齐图像和语言，实现了更细粒度的对齐和更强大的数据效率，这两个新任务是对称跨模态重建和伪标签关键字预测。

Mar, 2022

语义增强的跨模态遮蔽图像建模及视觉 - 语言预训练

我们提出了一个语义增强的视觉 - 语言预训练模型，通过引入局部语义增强方法和文字引导的遮蔽策略，实现了跨模态语义对齐，在多个下游视觉 - 语言任务中取得了最先进或有竞争力的性能。

Mar, 2024

使用文本驱动的软掩膜进行多模态表征学习

提出了一个自我监督学习框架中的视觉语言表示学习方法，引入了一种新的操作、损失和数据增强策略，其中将图像中最相关于对应的标题中某个单词的区域进行软掩蔽以生成多样的图像特征，然后通过多模态编码器计算出每个单词的条件视觉注意力来确定与其相关的区域，提出了一个用于图像文本对比学习（ITC）目标的焦点损失，并进行多模态数据增强以进行自我监督学习。

Apr, 2023

掩蔽动量对比学习用于零样本语义理解

通过自监督预训练技术（SSP），本研究旨在评估彻底自监督学习技术在计算机视觉任务中的有效性，无需微调，旨在模仿人类的泛化和识别未见目标的能力，并提出了一种基于标注块的零样本分割评估协议，以及评估 SSP ViTs 的内部和外部物体相似性来衡量其歧视能力，并设计了一种名为 MMC 的简单 SSP 方法，该方法通过对局部特征的相似性进行蒙版图像建模、基于动量的自蒸馏将全局语义转移到局部特征以及全局对比度来提升 SSP ViTs 的区分能力，有效地在图像中进行物体分割，实验结果显示 MMC 在各种数据集上实现了零样本语义分割的顶级效果。

Aug, 2023

语音翻译和识别的统一语音文本预训练

本文描述了一种使用编码器 - 解码器建模框架来联合预训练语音和文本用于语音翻译和识别的方法，其中包括四个自监督和有监督的子任务以进行跨模态学习，其贡献在于将文本语料库中的语言信息整合到语音预训练中。

Apr, 2022

边界感知的自监督学习用于视频场景分割

本文提出了一种基于无监督自学习框架的视频场景分割算法，采用三种新颖的边界感知预训练任务 (SSM, CGM, PP)，重点在于设计有效的预训练任务，通过广泛的实验结果表明，预训练和转移环境表示对于改善视频场景分割性能至关重要，并实现了 MovieNet-SSeg 基准测试的最新最好成绩。

Jan, 2022