HTR-VT:基于视觉变换器的手写文本识别
本研究主要解决将手写文本识别能力添加到大规模多语言OCR系统中的难点,包括数据获取,效率和集成等三个方面,通过使用在线手写数据集和基于神经网络的线识别模型等方式解决了这些问题,实现了HTR能力在OCR系统中的集成。
Apr, 2019
本文研究使用Transformer代替CNN进行图像分类,实现在计算资源少的情况下,取得比目前卷积网络更好的识别结果,从而在计算机视觉上取得突破。
Oct, 2020
本文提出ViTSTR作为一种简单的单阶段模型架构的STR,其基于一种计算和参数高效的视觉变换器(ViT),ViTSTR在以往的基准测试方法中取得了具有竞争力的准确率82.6%(具有数据增强时为84.2%),可获得2.4倍的加速比,只使用43.4%的参数数量和42.2%的FLOPS。
May, 2021
本研究提出一种基于补丁式图像记号化框架的单一视觉模型,用于场景文本识别,其通过组成部分级别的混合、合并和/或组合,实现全局和局部混合块,以感知字符之间和字符内部的模式,从而通过简单的线性预测识别字符。实验结果表明,在英语和中文场景文本识别任务上,SVTR-L(大型)实现了高竞争准确性,在中文上大幅优于现有的方法,在代码实现方面表现出更快的速度。
Apr, 2022
本文介绍了使用卷积神经网络进行手写文本识别的Easter2.0体系结构,并提出了一种数据增强技术'Tiling and Corruption',在仅使用公开训练数据时在IAM手写数据库上实现了最先进的结果。
May, 2022
本文提出了使用 tranformer-only 模型作为识别场景文字的基线,并且利用 Pure Transformer with Integrated Experts 优化了解码过程,实现了对多尺度图片的处理和原始字符顺序的识别,并在七个基准测试中超越了20个最先进的方法,达到了最先进的效果。
Nov, 2022
通过对大型基准数据集和通过手写文本生成模型产生的合成数据集的研究,本文提出在大数据集上预训练手写文本识别模型,并在少量带有个人特点手写的小规模数据集上进行微调,以有效转录手稿。
May, 2023
Transformer设计是自然语言处理任务的事实标准,并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比,基于Transformer的Vision Transformers(ViTs)在许多视觉问题中变得更加流行和占主导地位。
Oct, 2023
本研究解决了传统作家检索中手工特征和卷积神经网络特征应用不足的问题。我们提出了一种新方法,利用自监督学习从视觉 Transformer 提取特征,并通过 VLAD 编码进行聚合。结果显示,该方法在历史文件集上达到了新的最佳性能,展示了其在现代数据集上的广泛适用性。
Sep, 2024