PIMNet：一种用于场景文本识别的并行、迭代和模拟网络

MMSep, 2021

PIMNet：一种用于场景文本识别的并行、迭代和模拟网络

PIMNet: A Parallel, Iterative and Mimicking Network for Scene Text Recognition

Zhi Qiao, Yu Zhou, Jin Wei, Wei Wang, Yuan Zhang...

TL;DR该研究提出了一种平行、迭代和模仿网络 (PIMNet)，它采用了一种平行注意机制来更快地预测文本，以及一种迭代生成机制来使预测更加准确。与自回归模型相比，该方法在推理时间上更快，同时保持了很高的准确性。

Abstract

Nowadays, scene text recognition has attracted more and more attention due to its various applications. Most state-of-the-art methods adopt an encoder-decoder framework with →

scene text recognition encoder-decoder framework attention mechanism non-autoregressive models parallel, iterative and mimicking network

发现论文，激发创造

IPAD：一种基于迭代、并行和扩散的场景文本识别网络

提出了一种使用并行和迭代解码器，并采用易先原则解码策略的替代方案，将文本识别视为基于图像的条件文本生成任务，并采用离散扩散策略，确保双向上下文信息的穷举性探索。大量实验证明，该方法在基准数据集上取得了优越的结果，包括中英文文本图像。

Dec, 2023

像人类一样阅读：自主、双向和迭代式的场景文本识别语言建模

提出了一种自主的、双向的、迭代的 ABINet 模型用于场景文本识别，通过阻塞视觉和语言模型之间的梯度流来明确语言建模，基于双向特征表示提出了一个新的双向洞穴网络作为语言模型，并提出一种迭代校正语言模型的执行方式，有效缓解了噪音输入的影响。此外，提出了一种自我训练方法，可以有效地从未标记的图像中学习，并在多个主流基准测试中取得了最先进的结果。

Mar, 2021

端到端可训练的基于图像序列识别的神经网络及其在场景文本识别中的应用

本文提出了一种新颖的神经网络架构，将特征提取、序列建模和转录集成到统一框架中，用于场景文本识别，相比现有算法其具有端到端训练，不需要一定的词典限制，更加适合实际应用等优点，在标准测试数据上展现出更好的性能。

Jul, 2015

非自回归神经文本转语音

本文提出 ParaNet，一种非自回归 seq2seq 模型，用于将文本转换为频谱图，并通过各种平行神经音色器进行了测试，其中包括一种基于 VAE 的方法，用于从头开始训练反自回归流（IAF）平行音色器。

May, 2019

使用金字塔注意网络的 Mask R-CNN 进行场景文字检测

本文提出了基于 Mask R-CNN 技术的文本检测新方法，应用金字塔注意力网络作为新的 Mask R-CNN 骨干网络以提高其特征表达能力，该方法可以统一地在自然场景图像中稳健地检测多定向和曲线文本，并在多种测试数据集上获得优越的性能。

Nov, 2018

MIMONets: 多输入多输出神经网络利用超位运算

利用深度学习的进展，本研究提出了 Multiple-Input-Multiple-Output Neural Networks (MIMONets) 的概念，通过超定的计算来降低推理成本，并在动态参数范围内实现准确率与吞吐量的权衡。MIMONets 应用于 CNN 和 Transformer 架构，分别命名为 MIMOConv 和 MIMOFormer，并通过实证评估验证了它们的高速和准确性。

Dec, 2023

深度自回归模型的块并行解码

该论文提出了一种新颖的分块并行解码方案，来提高序列生成的速度，并在机器翻译和图像超分辨率任务上通过实验验证了该方法的有效性。

Nov, 2018

具有位置对齐的快速图像字幕生成

提出了一种非自回归解码框架用于图片描述，该框架使用位置对齐和推理策略来指导更进一步的句子生成，实验结果表明此模型相对于自回归模型有显著的加速效果，并且相较于 NA 模型有更好的表现。

Dec, 2019

场景文本识别的上下文感知并行解码器

场景文本识别方法一直在追求高准确率和快速推断速度。本文通过经验研究发现，自回归解码在提供视觉上下文感知方面比语言建模更有效。因此，提出了上下文感知并行解码器（CPPD），它在单次解码中构建了一个稳健的上下文，使得其准确率和推断速度较传统方法显著提高。

Jul, 2023

基于像素聚合网络的高效准确任意形状文本检测

本文提出了一种高效准确的任意形状文本检测器 Pixel Aggregation Network (PAN)，它配备了低计算成本的分割头和可学习的后处理，其中分割头由 Feature Pyramid Enhancement Module (FPEM) 和 Feature Fusion Module (FFM) 组成。通过预测相似向量准确地聚合文本像素的像素聚合 (PA) 实现可学习后处理。同时，该方法在几个标准基准测试中取得了优异的表现。

Aug, 2019