HAAP: 基于视觉-上下文分层注意力自回归与自适应排列的场景文本识别

May, 2024

HAAP: 基于视觉-上下文分层注意力自回归与自适应排列的场景文本识别

HAAP: Vision-context Hierarchical Attention Autoregressive with Adaptive Permutation for Scene Text Recognition

Honghui Chen, Yuhang Qiu, Jiabao Wang, Pingping Chen, Nam Ling

TL;DR本文提出了一种使用自适应置换的分级注意力自回归模型（HAAP）来增强位置-上下文-图像交互能力，从而改进了内部语言模型的自回归泛化。通过使用隐式置换神经元（IPN）生成自适应的注意力掩码，增加了训练数据的多样性，避免了模型对特定顺序的依赖，并减少了置换语言模型的训练开销。同时，通过交叉模态分级注意机制（CHA）将上下文和图像特征相结合，建立了丰富的位置语义依赖关系，避免了迭代细化操作。大量实验结果表明，所提出的HAAP在准确性、复杂性和延迟方面具有最先进的性能。

Abstract

internal language model (LM)-based methods use permutation language modeling (PLM) to solve the error correction caused by conditional independence in external LM-based methods. However, random permutations of hu

发现论文，激发创造

场景文本识别的视觉注意力模型

本文提出了一种无词典的场景图像文本识别方法，该方法基于一种基于LSTM的软视觉注意模型，该模型从卷积特征中学习。通过导出与图像不同区域对应的中间卷积层的一组特征向量，实现了对空间信息的编码，从而使框架能够学习如何选择性地聚焦于图像的不同部分。除此之外，我们还展示了通过将显式语言模型集成到束搜索算法中来修改改良的束搜索算法可以导致更好的识别结果，以标准的SVT和ICDAR'03场景文本数据集为基础，证明了我们方法在无约束文本识别中的卓越表现。

Jun, 2017

自适应注意力的分层LSTM用于视觉字幕生成

通过引入自适应注意力机制以及分层LSTM（Hierarchical LSTM），提出了一种基于注意力的编码器-解码器框架，并在图像和视频描述生成领域通过应用空间或时间注意力机制进行预测。实验表明所提出的框架在图像和视频描述生成任务中均取得了最先进的性能，同时还充分探讨了其各个组成部分的重要贡献。

Dec, 2018

基于注意力机制的情境文本识别自适应嵌入门

本研究提出了一种新的模块，即自适应嵌入门(AEG)，并将其引入到注意机制中以解决预测限制对于文字场景识别表现的影响。该模块可以显著提高识别表现并带来更好的稳健性。

Aug, 2019

PIMNet：一种用于场景文本识别的并行、迭代和模拟网络

该研究提出了一种平行、迭代和模仿网络(PIMNet)，它采用了一种平行注意机制来更快地预测文本，以及一种迭代生成机制来使预测更加准确。与自回归模型相比，该方法在推理时间上更快，同时保持了很高的准确性。

Sep, 2021

提高场景文本检测器的视觉语言预训练

本文研究了视觉-语言联合表征学习在场景文本检测中的应用，提出了利用视觉-语言预训练学习得到的上下文化联合表征来提高场景文本检测器的性能，通过三个pretext tasks来进行预训练，在标准基准测试中证明了该方法能够显著提高各种代表性的文本检测器的性能。

Apr, 2022

使用置换自回归序列模型的场景文本识别

PARSeq使用Permutation Language Modeling学习了一组共享权重的内部AR语言模型的集合，实现了无上下文的非AR和有上下文的AR推理以及使用双向上下文的迭代细化，使用注意力机制进行文本识别，取得了在STR基准测试中的最新成果，并在一些具有挑战性的数据集上建立了新的SOTA结果。

Jul, 2022

语境增强: 迈向高效准确的场景文本识别

提出了一种基于$ extbf{LVP}$的语言感知视觉模型，通过级联式优化和语言信息挖掘解决了基于纯视觉的识别模型在注意力漂移和部分视觉缺失情况下识别率低的问题，并在保持低复杂度的同时达到了最佳性能。

May, 2023

遮盖和置乱隐式上下文学习用于场景文本识别

本文提出了一种利用语言信息来增强场景文本识别模型鲁棒性的方法，通过将 Masked Language Modeling (MLM) 和 Permuted Language Modeling (PLM) 结合到一个单一解码体系结构中，引入特定数量的掩码标记来集成 MLM，实验结果表明，该模型在标准基准测试中使用 AR 和 NAR 解码程序均获得了最先进的性能。

May, 2023

IPAD：一种基于迭代、并行和扩散的场景文本识别网络

提出了一种使用并行和迭代解码器，并采用易先原则解码策略的替代方案，将文本识别视为基于图像的条件文本生成任务，并采用离散扩散策略，确保双向上下文信息的穷举性探索。大量实验证明，该方法在基准数据集上取得了优越的结果，包括中英文文本图像。

Dec, 2023

自适应注意力的巨大视觉语言模型

本研究针对大型视觉语言模型（LVLM）在推理过程中面临的资源消耗问题，通过提出A-VL自适应注意力技术，分别管理视觉和语言输入的注意力模式，显著降低了内存需求和计算负担。实验结果表明，A-VL在多个视觉语言任务上超过了现有的自适应注意力方法，展示了其在效率和性能上的潜在影响。

Sep, 2024