IPAD：一种基于迭代、并行和扩散的场景文本识别网络

Dec, 2023

IPAD：一种基于迭代、并行和扩散的场景文本识别网络

IPAD: Iterative, Parallel, and Diffusion-based Network for Scene Text Recognition

Xiaomeng Yang, Zhi Qiao, Yu Zhou, Weiping Wang

TL;DR提出了一种使用并行和迭代解码器，并采用易先原则解码策略的替代方案，将文本识别视为基于图像的条件文本生成任务，并采用离散扩散策略，确保双向上下文信息的穷举性探索。大量实验证明，该方法在基准数据集上取得了优越的结果，包括中英文文本图像。

Abstract

Nowadays, scene text recognition has attracted more and more attention due to its diverse applications. Most state-of-the-art methods adopt an encoder-decoder framework with the →

scene text recognition encoder-decoder framework attention mechanism autoregressive models image-based conditional text generation

发现论文，激发创造

PIMNet：一种用于场景文本识别的并行、迭代和模拟网络

该研究提出了一种平行、迭代和模仿网络 (PIMNet)，它采用了一种平行注意机制来更快地预测文本，以及一种迭代生成机制来使预测更加准确。与自回归模型相比，该方法在推理时间上更快，同时保持了很高的准确性。

Sep, 2021

端到端可训练的基于图像序列识别的神经网络及其在场景文本识别中的应用

本文提出了一种新颖的神经网络架构，将特征提取、序列建模和转录集成到统一框架中，用于场景文本识别，相比现有算法其具有端到端训练，不需要一定的词典限制，更加适合实际应用等优点，在标准测试数据上展现出更好的性能。

Jul, 2015

像人类一样阅读：自主、双向和迭代式的场景文本识别语言建模

提出了一种自主的、双向的、迭代的 ABINet 模型用于场景文本识别，通过阻塞视觉和语言模型之间的梯度流来明确语言建模，基于双向特征表示提出了一个新的双向洞穴网络作为语言模型，并提出一种迭代校正语言模型的执行方式，有效缓解了噪音输入的影响。此外，提出了一种自我训练方法，可以有效地从未标记的图像中学习，并在多个主流基准测试中取得了最先进的结果。

Mar, 2021

评估序列到序列模型在手写文本识别中的应用

该研究提出了一种基于注意力机制的序列到序列模型用于手写体识别，其中结合了卷积神经网络进行视觉信息的提取，实验结果表明其相比于最近的序列到序列方法取得了显著提升。

Mar, 2019

具有位置对齐的快速图像字幕生成

提出了一种非自回归解码框架用于图片描述，该框架使用位置对齐和推理策略来指导更进一步的句子生成，实验结果表明此模型相对于自回归模型有显著的加速效果，并且相较于 NA 模型有更好的表现。

Dec, 2019

LaDiC：扩散模型在图像生成的文本方面真的不如自回归模型吗？

Diffusion models have the potential for enhancing image-to-text generation and surpass Auto-Regressive models by introducing LaDiC, which incorporates context modeling, a dedicated latent space for captions, a regularization module, a diffuser for semantic conversion, and a Back&Refine technique, achieving state-of-the-art performance on the MS COCO dataset without pre-training or ancillary modules.

Apr, 2024

深度自回归模型的块并行解码

该论文提出了一种新颖的分块并行解码方案，来提高序列生成的速度，并在机器翻译和图像超分辨率任务上通过实验验证了该方法的有效性。

Nov, 2018

基于整体表征的引导注意力网络用于场景文字识别

本研究提出一种基于全局特征引导注意力的二维卷积神经网络和序列解码器来识别场景文本的简单但强大方法，训练时仅使用单词级别的注释，相比循环神经网络，能够在前向和后向传递中获得 1.3x 至 9.4x 不等的加速。在评估的正常和不规则的场景文本基准数据集上实现了最先进或竞争性的识别性能。

Apr, 2019

使用注意力卷积序列建模技术识别场景文本

本文提出了基于注意力卷积网络的端到端场景文本识别方法，通过卷积神经网络 (CNN) 代替循环神经网络 (RNN) 来实现输入序列的上下文依赖关系的准确捕捉，提高了识别效率，并结合残余注意力模块进一步提高特征识别的准确性。该方法在多个数据集上验证结果显示了显著的性能优势。

Sep, 2017

半自回归式图像字幕

该研究提出了一种新的两阶段模型，称为半自回归图像字幕生成模型，使用部分先验信息和图像特征，先以自回归方式生成一个间歇性序列，然后使用迭代的非自回归方式填充所有跳过的单词，可以更好地权衡性能和速度，并在 MS COCO 基准测试上得到更好的表现和竞争性推理加速。

Oct, 2021