HTR-VT：基于视觉变换器的手写文本识别

Sep, 2024

HTR-VT：基于视觉变换器的手写文本识别

HTR-VT: Handwritten Text Recognition with Vision Transformer

Yuting Li, Dexiong Chen, Tinglong Tang, Xi Shen

TL;DR本研究针对手写文本识别中的数据标注稀缺问题，提出了一种高效的数据利用的视觉变换器方法。通过采用卷积神经网络提取特征并引入焦点感知最小化优化器，显著提高了模型性能。此外，采用的跨度掩码技术作为正则化手段，在小数据集上表现出色，并在LAM数据集上建立了新的基准。

Abstract

We explore the application of Vision Transformer (ViT) for Handwritten Text Recognition. The limited availability of labeled data in this domain poses challenges for achieving high performance solely relying on V

发现论文，激发创造

一个可扩展的手写文本识别系统

本研究主要解决将手写文本识别能力添加到大规模多语言OCR系统中的难点，包括数据获取，效率和集成等三个方面，通过使用在线手写数据集和基于神经网络的线识别模型等方式解决了这些问题，实现了HTR能力在OCR系统中的集成。

Apr, 2019

一张图像胜过16*16个单词：规模下的图像识别变形金刚

本文研究使用Transformer代替CNN进行图像分类，实现在计算资源少的情况下，取得比目前卷积网络更好的识别结果，从而在计算机视觉上取得突破。

Oct, 2020

用于快速高效场景文本识别的Vision Transformer

本文提出ViTSTR作为一种简单的单阶段模型架构的STR，其基于一种计算和参数高效的视觉变换器（ViT），ViTSTR在以往的基准测试方法中取得了具有竞争力的准确率82.6％（具有数据增强时为84.2％），可获得2.4倍的加速比，只使用43.4％的参数数量和42.2％的FLOPS。

May, 2021

使用单个视觉模型进行场景文本识别

本研究提出一种基于补丁式图像记号化框架的单一视觉模型，用于场景文本识别，其通过组成部分级别的混合、合并和/或组合，实现全局和局部混合块，以感知字符之间和字符内部的模式，从而通过简单的线性预测识别字符。实验结果表明，在英语和中文场景文本识别任务上，SVTR-L（大型）实现了高竞争准确性，在中文上大幅优于现有的方法，在代码实现方面表现出更快的速度。

Apr, 2022

Easter2.0：改进手写文字识别中的卷积模型

本文介绍了使用卷积神经网络进行手写文本识别的Easter2.0体系结构，并提出了一种数据增强技术'Tiling and Corruption'，在仅使用公开训练数据时在IAM手写数据库上实现了最先进的结果。

May, 2022

集成专家的纯Transformer用于场景文本识别

本文提出了使用 tranformer-only 模型作为识别场景文字的基线，并且利用 Pure Transformer with Integrated Experts 优化了解码过程，实现了对多尺度图片的处理和原始字符顺序的识别，并在七个基准测试中超越了20个最先进的方法，达到了最先进的效果。

Nov, 2022

如何选择预训练的手写识别模型用于单作者微调

通过对大型基准数据集和通过手写文本生成模型产生的合成数据集的研究，本文提出在大数据集上预训练手写文本识别模型，并在少量带有个人特点手写的小规模数据集上进行微调，以有效转录手稿。

May, 2023

ViTs随处可见：综合研究展示不同领域中的视觉Transformer

Transformer设计是自然语言处理任务的事实标准，并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比，基于Transformer的Vision Transformers（ViTs）在许多视觉问题中变得更加流行和占主导地位。

Oct, 2023

手写文本识别系统的最佳实践

手写文本识别已得到迅速发展，本论文通过实验证明了在预处理、CNN架构和CTC损失三个方面的简单修改，可以提高手写文本识别系统的性能。

Apr, 2024

自监督视觉 Transformer 在作家检索中的应用

本研究解决了传统作家检索中手工特征和卷积神经网络特征应用不足的问题。我们提出了一种新方法，利用自监督学习从视觉 Transformer 提取特征，并通过 VLAD 编码进行聚合。结果显示，该方法在历史文件集上达到了新的最佳性能，展示了其在现代数据集上的广泛适用性。

Sep, 2024