使用置换自回归序列模型的场景文本识别
本文提出了一种利用语言信息来增强场景文本识别模型鲁棒性的方法,通过将 Masked Language Modeling (MLM) 和 Permuted Language Modeling (PLM) 结合到一个单一解码体系结构中,引入特定数量的掩码标记来集成 MLM,实验结果表明,该模型在标准基准测试中使用 AR 和 NAR 解码程序均获得了最先进的性能。
May, 2023
场景文本识别方法一直在追求高准确率和快速推断速度。本文通过经验研究发现,自回归解码在提供视觉上下文感知方面比语言建模更有效。因此,提出了上下文感知并行解码器(CPPD),它在单次解码中构建了一个稳健的上下文,使得其准确率和推断速度较传统方法显著提高。
Jul, 2023
本文提出了 AutoSTR 来搜索依赖于数据的骨干以增强文本识别性能,实验表明,通过搜索数据依赖的骨干,AutoSTR 可以在标准基准测试中胜过最先进的方法,且 FLOPS 和模型参数更少。
Mar, 2020
本文提出了一种新的半监督学习方法来进行场景文本识别(STR),该方法从视觉和语义两个方面融合了单词级一致性正则化,通过使用最短路径对齐模块以及采用强化学习框架来优化嵌入空间中预测字符串的语义相似性,实验结果表明该方法在多个标准和具有挑战性的 STR 基准测试中优于现有的半监督 STR 方法。
Feb, 2024
本文介绍了一种利用合成数据和大量真实未标记图像的半监督框架来提高场景文本识别模型性能的方法。该框架基于鲁棒的一致性正则化,有效地解决了合成和真实图像之间的域不一致性问题,并在多项实验中显示出稳定性和准确性,同时提高了场景文本识别模型达到了最新的最优结果,是首个成功应用一致性正则化框架于场景文本识别的方法。
Apr, 2022
Scene text recognition (STR) in the wild faces challenges due to domain variations, font diversity, shape deformations, etc. Recent studies show that large language models (LLMs) can learn from a few demonstration examples using In-Context Learning (ICL). However, applying LLMs as a text recognizer is resource-consuming. To address this, the paper introduces E$^2$STR, a STR model trained with context-rich scene text sequences, demonstrating effective ICL capabilities with a regular-sized model and outperforming fine-tuned approaches.
Nov, 2023
通过多路推断并使用 Query-CTC 损失函数训练的并行解码序列到序列视觉 - 语言模型(NARVL),不再限制为条件分布,能够建模多个推断路径的联合分布,从而在推断时减少了线性复杂度与顺序生成的常态联合推断模式相比达到了与最先进自回归模型相当的性能提升,并且速度更快。
Mar, 2024
本文针对自回归模型在计算机视觉领域无法与其他自监督学习方法相比的问题,通过引入随机排列策略和并行编码 - 解码训练过程,提出了一种名为 SAIM 的新型随机自回归图像建模方法,取得了极大的性能提升,特别是在基于 ImageNet-1K 数据的视觉变换任务方面达到最佳精度 83.9%。
Dec, 2022
提出了一种流式的 “半自回归” ASR 模型,通过在上一个片段中引入先前块中发出的标签作为额外上下文,使用语言模型(LM)子网络,以及引入了一种新的贪婪解码算法来解决块边界附近的插入和删除错误,提高了语音处理的准确性和响应速度。
Sep, 2023
该研究提出了一种基于图卷积网络的文本推理(GTR)方法并将其应用于场景文本识别中,该方法可以利用像素之间的空间关联来提高文本识别的性能,并在六个具有挑战性的基准测试中获得最新的最佳结果。
Dec, 2021