高效利用语言先验进行场景文本定位
本文提出了一种使用 transformer encoding 的新型端到端场景文本识别框架,并通过一种新的识别转换机制,在不需要额外的矫正模块或字符级别注释的情况下显式地引导文本定位,从而使该方法在多种数据集上显著优于现有方法。
Mar, 2022
本文提出了一种基于弱监督学习的场景文本生成方法,通过跨语言生成,将场景文本图片的内容和样式特征分离,并引入整合式注意力模块和预先训练的字体分类器以保证生成图片的完整内容结构以及填补不同语言文本风格之间的差距,实验结果显示,该方法显著提高了场景文本识别精度。
Jun, 2023
本研究提出了一种新颖的基于文本的交通场景表示方法,并使用预训练语言编码器进行处理。我们展示了文本表示与传统光栅图像表示结合可以产生描述性的场景嵌入。在 nuScenes 数据集上对我们的预测进行了基准测试,并与基准模型相比显示了显著改进。消融实验结果表明,文本和光栅图像的联合编码器优于各自编码器,证实了两种表示方法具有互补的优势。
Sep, 2023
本文研究场景文本识别中的 “词汇依赖” 现象,发现现有算法普遍存在这种特征,提出基于注意力和分割的模型在处理词汇外的文本识别时表现良好,同时提出了一种名为 “mutual learning” 的简单而有效的模型训练策略,这种方法成功缓解了词汇依赖问题,并提高了场景文本识别的性能。
May, 2020
提出了一种基于 $ extbf {LVP}$ 的语言感知视觉模型,通过级联式优化和语言信息挖掘解决了基于纯视觉的识别模型在注意力漂移和部分视觉缺失情况下识别率低的问题,并在保持低复杂度的同时达到了最佳性能。
May, 2023
本文研究了视觉 - 语言联合表征学习在场景文本检测中的应用,提出了利用视觉 - 语言预训练学习得到的上下文化联合表征来提高场景文本检测器的性能,通过三个 pretext tasks 来进行预训练,在标准基准测试中证明了该方法能够显著提高各种代表性的文本检测器的性能。
Apr, 2022
提出了一种新的场景文本识别方法,使用单点标注替代昂贵的边界框标注,将场景文本定位和识别视为序列预测任务,并使用自回归 Transformer 模型预测序列,可达到最先进的识别效果。
Dec, 2021
本文介绍了一种名为 AE TextSpotter 的文字识别方法,与以往的方法不同的是,它在视觉特征的基础上加入了语言特征用以减少检测过程中的歧义。实验表明,AE TextSpotter 在极具歧义性的样本上的性能优于其他最先进的方法超过 4%。
Aug, 2020
提出了一个简单而高效的整合学习框架用于越南场景文字定位。通过结合多个模型以提高预测准确性的整合学习方法,旨在显著提升在具有挑战性的城市环境下的场景文字定位性能。通过在 VinText 数据集上的实验评估,我们提出的方法相对于现有方法在准确性方面取得了显著改进,达到了 5% 的令人印象深刻的准确性。这些结果明确证明了在越南城市环境中的场景文字定位中整合学习的效果,并强调了其在真实世界应用方面的潜力,如城市标识、广告和各种富有文字的城市场景中的文本检测和识别。
Apr, 2024