集成专家的纯 Transformer 用于场景文本识别
本文提出 ViTSTR 作为一种简单的单阶段模型架构的 STR,其基于一种计算和参数高效的视觉变换器(ViT),ViTSTR 在以往的基准测试方法中取得了具有竞争力的准确率 82.6%(具有数据增强时为 84.2%),可获得 2.4 倍的加速比,只使用 43.4%的参数数量和 42.2%的 FLOPS。
May, 2021
本研究提出了一种基于 ViTs 的简单而有效的文本擦除器,在编码器 - 解码器框架内集成文本定位和修复,通过 SegMIM 方法进行端到端预训练,实现了在场景文本去除方面的最先进性能提升,表明了 ViTs 在此领域的广泛应用前景。
Jun, 2023
本研究提出了一种 VIPTR(VIsion Permutable extractor for fast and efficient scene Text Recognition)方法,它利用具有金字塔结构的视觉语义提取器以及多个自注意层,避免了传统序列解码器的依赖,从而实现了在场景文本识别领域高性能和快速推理速度之间的卓越平衡。在多个标准数据集上的大量实验结果验证了 VIPTR 的卓越优势,在中英文场景文本识别方面取得了领先位置,同时 VIPTR-T(Tiny)在保持与其他轻量级模型相媲美的准确性的基础上,实现了最先进的推理速度,而 VIPTR-L(Large)在保持较低参数和良好推理速度的同时,实现了更高的识别准确性。本研究提出的方法为场景文本识别挑战提供了一个引人注目的解决方案,将高准确性和高效性相结合,极大地促进了对快速可靠文本识别的现实应用。
Jan, 2024
本文研究使用 Transformer 代替 CNN 进行图像分类,实现在计算资源少的情况下,取得比目前卷积网络更好的识别结果,从而在计算机视觉上取得突破。
Oct, 2020
本文旨在解决场景文字识别中的挑战性问题,通过引入 Vision Transformer,构建了一个概念简单而强大的模型,同时通过提出一种多粒度预测策略,将语言模态的信息融合到模型中,从而将每个子词表示与常规字符表示结合起来,使 STR 性能得到进一步提升。最终该算法在标准基准测试中获得了 93.35% 的平均识别准确率。
Sep, 2022
介绍了一种使用单个解码器进行双向文本解码的新型双向美术场景文本识别方法 Bi-STET,该方法比使用两个独立解码器进行双向解码的方法更高效,并在所有 STR 基准测试中实现或超越最先进的方法。
Dec, 2019
本论文提出了一种基于 transformer 的简单但极其有效的场景文本识别方法,只需要空间注意力而不需要矫正图像,仅使用卷积特征图作为单词嵌入输入到 transformer 中,并在大规模实验中取得了显著的优越性能。
Mar, 2020
本文提出了一种基于 Transformer 的端到端图像压缩和分析模型,实现云端图像分类应用,并通过两步训练策略解决了率失真精度优化问题。实验结果表明,该模型在图像压缩和分类任务中均具有有效性。
Dec, 2021
本论文提出了一种结合卷积神经网络和 Transformer 的新型算法 Convolution-enhanced image Transformer (CeiT),在 ImageNet 和七个下游任务中实现了与先前 Transformer 和目前最先进的卷积神经网络相当的效果,而无需大量训练数据和额外的卷积神经网络教师,同时具有更好的收敛性和更低的训练成本。
Mar, 2021
本文提出了一个基于 Vision Transformer (ViT) 的图像重构框架,利用 4 种优化技术和生成对抗网络(GANs)启发的对抗性损失函数,用于图像去噪和修复,实验表明该框架在结构相似性(SSIM)方面比 U-Net 模型高出超过 3.5%,对于这两个任务,提议的增强算法进一步展示了超过基准的 extasciitilde5%SSIM 的改进。
Jul, 2023