PIMNet:一种用于场景文本识别的并行、迭代和模拟网络
提出了一种使用并行和迭代解码器,并采用易先原则解码策略的替代方案,将文本识别视为基于图像的条件文本生成任务,并采用离散扩散策略,确保双向上下文信息的穷举性探索。大量实验证明,该方法在基准数据集上取得了优越的结果,包括中英文文本图像。
Dec, 2023
提出了一种自主的、双向的、迭代的 ABINet 模型用于场景文本识别,通过阻塞视觉和语言模型之间的梯度流来明确语言建模,基于双向特征表示提出了一个新的双向洞穴网络作为语言模型,并提出一种迭代校正语言模型的执行方式,有效缓解了噪音输入的影响。此外,提出了一种自我训练方法,可以有效地从未标记的图像中学习,并在多个主流基准测试中取得了最先进的结果。
Mar, 2021
本文提出了一种新颖的神经网络架构,将特征提取、序列建模和转录集成到统一框架中,用于场景文本识别,相比现有算法其具有端到端训练,不需要一定的词典限制,更加适合实际应用等优点,在标准测试数据上展现出更好的性能。
Jul, 2015
本文提出 ParaNet,一种非自回归 seq2seq 模型,用于将文本转换为频谱图,并通过各种平行神经音色器进行了测试,其中包括一种基于 VAE 的方法,用于从头开始训练反自回归流(IAF)平行音色器。
May, 2019
本文提出了基于 Mask R-CNN 技术的文本检测新方法,应用金字塔注意力网络作为新的 Mask R-CNN 骨干网络以提高其特征表达能力,该方法可以统一地在自然场景图像中稳健地检测多定向和曲线文本,并在多种测试数据集上获得优越的性能。
Nov, 2018
利用深度学习的进展,本研究提出了 Multiple-Input-Multiple-Output Neural Networks (MIMONets) 的概念,通过超定的计算来降低推理成本,并在动态参数范围内实现准确率与吞吐量的权衡。MIMONets 应用于 CNN 和 Transformer 架构,分别命名为 MIMOConv 和 MIMOFormer,并通过实证评估验证了它们的高速和准确性。
Dec, 2023
提出了一种非自回归解码框架用于图片描述,该框架使用位置对齐和推理策略来指导更进一步的句子生成,实验结果表明此模型相对于自回归模型有显著的加速效果,并且相较于 NA 模型有更好的表现。
Dec, 2019
场景文本识别方法一直在追求高准确率和快速推断速度。本文通过经验研究发现,自回归解码在提供视觉上下文感知方面比语言建模更有效。因此,提出了上下文感知并行解码器(CPPD),它在单次解码中构建了一个稳健的上下文,使得其准确率和推断速度较传统方法显著提高。
Jul, 2023
本文提出了一种高效准确的任意形状文本检测器 Pixel Aggregation Network (PAN),它配备了低计算成本的分割头和可学习的后处理,其中分割头由 Feature Pyramid Enhancement Module (FPEM) 和 Feature Fusion Module (FFM) 组成。通过预测相似向量准确地聚合文本像素的像素聚合 (PA) 实现可学习后处理。同时,该方法在几个标准基准测试中取得了优异的表现。
Aug, 2019