文本识别的自我监督预训练

May, 2024

Self-supervised Pre-training of Text Recognizers

Martin Kišš, Michal Hradiš

TL;DR本文研究了文档文本识别的自监督预训练方法，探索了利用未标记数据的方法，并提出了基于掩码标签预测的自监督预训练方法，以及联合嵌入方法和模型崩溃预防技术。通过在历史手写和历史印刷数据集上的实验表明，自监督预训练在目标领域数据上非常有效，但在与之密切相关的领域上的迁移学习上却表现不佳。

Abstract

In this paper, we investigate self-supervised pre-training methods for document text recognition. Nowadays, large unlabeled datasets can be collected for many research tasks, including →

self-supervised pre-training text recognition unlabeled data transfer learning document text recognition

发现论文，激发创造

自监督预训练在语音识别中的有效性

本文比较了自监督表示学习算法 - 无量化学习和显式量化学习，发现使用显式量化的自监督学习算法以较高的准确性建立了数据词汇表，并在随后的 BERT 训练中学习了有效的表示方法，从而实现了训练量极小的语音识别系统。

Nov, 2019

自我训练提升自然语言理解的预训练

本文研究了一种使用自训练方法的半监督学习，提出了 SentAugment 数据增强方法，并取得了在文本分类任务上高达 2.6% 的改进。

Oct, 2020

神经网络顺序转移自监督预训练调查

本论文综述了自监督预训练技术及其在序列迁移学习框架中的应用，包括自监督学习和迁移学习的分类体系、设计跨不同领域的预训练任务的突出方法以及近期趋势和未来研究方向。

Jul, 2020

利用自我预训练的半监督文本分类

该研究提出了一种名为 Self-Pretraining 的神经半监督学习模型，该模型可以无阈值地更新先前标记的文档的信念，并且可以处理语义漂移问题，使用迭代蒸馏过程，跨迭代传输假设，利用两阶段训练模型，使用高效的学习率调度和使用伪标签转换启发式方法。

Sep, 2021

无监督的视觉与语言预训练：无需平行图像和文本

通过无监督预训练实现视觉和语言模型的学习，使用 “mask-and-predict” 方法预训练文本和图像数据，并引入目标识别模型检测到的对象标签作为两种模式之间的桥梁，在四个英语视觉和语言基准测试中获得了接近于使用对齐数据预训练的模型的性能，挑战了对于 V&L 预训练来说，对齐数据是必要的广泛看法，并显著减少了 V&L 模型的监督所需量。

Oct, 2020

SelfDoc: 自我监督文件表示学习

SelfDoc 是一个文档图像理解的任务无关的预训练框架，利用文档的位置、文本和视觉信息，并建模内容块之间的上下文关系，提出了一种新的跨模态学习模型，优于现有模型，同时具有自适应的视觉语言融合机制并应用自监督模型预训练，与以前作品相比，使用较少的文档图片达到更好的性能。

Jun, 2021

处理医学图像深度学习中的小数据集：对卷积模型进行自监督预训练的 CT 扫描上对比对比度和遮码自编码器方法的评估

深度学习在医学影像中具有潜力，可以减少诊断错误的风险，减轻放射科医生的工作负荷并加速诊断。为了解决医学影像领域注释数据集不足的挑战，我们通过预先训练大型无注释图像数据集上的深度学习模型来实现自我监督学习，并提出了 SparK 预训练方法，它在小型数据集上表现更为稳健。

Aug, 2023

通过将图像嵌入文本主题空间进行自监督的视觉特征学习

本文提出了一种利用自由可得的多模态内容进行无人监督计算机视觉算法训练的方法，通过挖掘大规模的多模态文档语料库中的语义结构进行话题建模，训练卷积神经网络来预测图像最可能出现为插图的语义上下文，有效地学习了区分性视觉特征，其实验结果表明具有比近期的自监督或自然监督方法更好的图像分类、物体检测和多模态检索的性能。

May, 2017

通过掩码重构无监督预训练双向语音编码器

提出了一种使用掩蔽重构损失进行预训练语音表示的方法，实现了双向预训练编码器网络在典型的双向语音识别模型中的直接使用。该方法在 LibriSpeech 和 Wall Street Journal 语料库上的实验表明，预训练、掩蔽段、领域适应都能提高语音识别性能。

Jan, 2020

启发式视觉预训练的自监督和有监督多任务学习

提出了一个结合自监督学习和监督学习的多任务预训练框架，用于识别多种视觉任务，结果表明该模型能够达到或超过多个视觉任务的最先进结果的能力。

Oct, 2023