IPAD:一种基于迭代、并行和扩散的场景文本识别网络
该研究提出了一种平行、迭代和模仿网络 (PIMNet),它采用了一种平行注意机制来更快地预测文本,以及一种迭代生成机制来使预测更加准确。与自回归模型相比,该方法在推理时间上更快,同时保持了很高的准确性。
Sep, 2021
本文提出了一种新颖的神经网络架构,将特征提取、序列建模和转录集成到统一框架中,用于场景文本识别,相比现有算法其具有端到端训练,不需要一定的词典限制,更加适合实际应用等优点,在标准测试数据上展现出更好的性能。
Jul, 2015
提出了一种自主的、双向的、迭代的 ABINet 模型用于场景文本识别,通过阻塞视觉和语言模型之间的梯度流来明确语言建模,基于双向特征表示提出了一个新的双向洞穴网络作为语言模型,并提出一种迭代校正语言模型的执行方式,有效缓解了噪音输入的影响。此外,提出了一种自我训练方法,可以有效地从未标记的图像中学习,并在多个主流基准测试中取得了最先进的结果。
Mar, 2021
该研究提出了一种基于注意力机制的序列到序列模型用于手写体识别,其中结合了卷积神经网络进行视觉信息的提取,实验结果表明其相比于最近的序列到序列方法取得了显著提升。
Mar, 2019
提出了一种非自回归解码框架用于图片描述,该框架使用位置对齐和推理策略来指导更进一步的句子生成,实验结果表明此模型相对于自回归模型有显著的加速效果,并且相较于 NA 模型有更好的表现。
Dec, 2019
Diffusion models have the potential for enhancing image-to-text generation and surpass Auto-Regressive models by introducing LaDiC, which incorporates context modeling, a dedicated latent space for captions, a regularization module, a diffuser for semantic conversion, and a Back&Refine technique, achieving state-of-the-art performance on the MS COCO dataset without pre-training or ancillary modules.
Apr, 2024
本研究提出一种基于全局特征引导注意力的二维卷积神经网络和序列解码器来识别场景文本的简单但强大方法,训练时仅使用单词级别的注释,相比循环神经网络,能够在前向和后向传递中获得 1.3x 至 9.4x 不等的加速。在评估的正常和不规则的场景文本基准数据集上实现了最先进或竞争性的识别性能。
Apr, 2019
本文提出了基于注意力卷积网络的端到端场景文本识别方法,通过卷积神经网络 (CNN) 代替循环神经网络 (RNN) 来实现输入序列的上下文依赖关系的准确捕捉,提高了识别效率,并结合残余注意力模块进一步提高特征识别的准确性。该方法在多个数据集上验证结果显示了显著的性能优势。
Sep, 2017
该研究提出了一种新的两阶段模型,称为半自回归图像字幕生成模型,使用部分先验信息和图像特征,先以自回归方式生成一个间歇性序列,然后使用迭代的非自回归方式填充所有跳过的单词,可以更好地权衡性能和速度,并在 MS COCO 基准测试上得到更好的表现和竞争性推理加速。
Oct, 2021