使用置换自回归序列模型的场景文本识别

ECCVJul, 2022

使用置换自回归序列模型的场景文本识别

Scene Text Recognition with Permuted Autoregressive Sequence Models

Darwin Bautista, Rowel Atienza

TL;DRPARSeq 使用 Permutation Language Modeling 学习了一组共享权重的内部 AR 语言模型的集合，实现了无上下文的非 AR 和有上下文的 AR 推理以及使用双向上下文的迭代细化，使用注意力机制进行文本识别，取得了在 STR 基准测试中的最新成果，并在一些具有挑战性的数据集上建立了新的 SOTA 结果。

Abstract

Context-aware STR methods typically use internal autoregressive (AR) language models (LM). Inherent limitations of AR models motivated two-stage methods which employ an external LM. The conditional independence of the external LM on the input image may cause it to erroneously rectify correct predictions, leading to significant inefficiencies. Our method,

parseq internal ar language models permutation language modeling context-aware inference text recognition

发现论文，激发创造

遮盖和置乱隐式上下文学习用于场景文本识别

本文提出了一种利用语言信息来增强场景文本识别模型鲁棒性的方法，通过将 Masked Language Modeling (MLM) 和 Permuted Language Modeling (PLM) 结合到一个单一解码体系结构中，引入特定数量的掩码标记来集成 MLM，实验结果表明，该模型在标准基准测试中使用 AR 和 NAR 解码程序均获得了最先进的性能。

May, 2023

场景文本识别的上下文感知并行解码器

场景文本识别方法一直在追求高准确率和快速推断速度。本文通过经验研究发现，自回归解码在提供视觉上下文感知方面比语言建模更有效。因此，提出了上下文感知并行解码器（CPPD），它在单次解码中构建了一个稳健的上下文，使得其准确率和推断速度较传统方法显著提高。

Jul, 2023

AutoSTR: 场景文本识别高效骨干网络搜索

本文提出了 AutoSTR 来搜索依赖于数据的骨干以增强文本识别性能，实验表明，通过搜索数据依赖的骨干，AutoSTR 可以在标准基准测试中胜过最先进的方法，且 FLOPS 和模型参数更少。

Mar, 2020

半监督文本识别的连续视觉和语义一致性

本文提出了一种新的半监督学习方法来进行场景文本识别（STR），该方法从视觉和语义两个方面融合了单词级一致性正则化，通过使用最短路径对齐模块以及采用强化学习框架来优化嵌入空间中预测字符串的语义相似性，实验结果表明该方法在多个标准和具有挑战性的 STR 基准测试中优于现有的半监督 STR 方法。

Feb, 2024

将场景文本识别器的性能极限推至无需人工注释

本文介绍了一种利用合成数据和大量真实未标记图像的半监督框架来提高场景文本识别模型性能的方法。该框架基于鲁棒的一致性正则化，有效地解决了合成和真实图像之间的域不一致性问题，并在多项实验中显示出稳定性和准确性，同时提高了场景文本识别模型达到了最新的最优结果，是首个成功应用一致性正则化框架于场景文本识别的方法。

Apr, 2022

多模态上下文学习使自适应场景文本识别器

Scene text recognition (STR) in the wild faces challenges due to domain variations, font diversity, shape deformations, etc. Recent studies show that large language models (LLMs) can learn from a few demonstration examples using In-Context Learning (ICL). However, applying LLMs as a text recognizer is resource-consuming. To address this, the paper introduces E$^2$STR, a STR model trained with context-rich scene text sequences, demonstrating effective ICL capabilities with a regular-sized model and outperforming fine-tuned approaches.

Nov, 2023

非自回归序列到序列视觉语言模型

通过多路推断并使用 Query-CTC 损失函数训练的并行解码序列到序列视觉 - 语言模型（NARVL），不再限制为条件分布，能够建模多个推断路径的联合分布，从而在推断时减少了线性复杂度与顺序生成的常态联合推断模式相比达到了与最先进自回归模型相当的性能提升，并且速度更快。

Mar, 2024

探索随机自回归图像建模以获取视觉表征

本文针对自回归模型在计算机视觉领域无法与其他自监督学习方法相比的问题，通过引入随机排列策略和并行编码 - 解码训练过程，提出了一种名为 SAIM 的新型随机自回归图像建模方法，取得了极大的性能提升，特别是在基于 ImageNet-1K 数据的视觉变换任务方面达到最佳精度 83.9%。

Dec, 2022

基于标签上下文的半自回归流式自动语音识别

提出了一种流式的 “半自回归” ASR 模型，通过在上一个片段中引入先前块中发出的标签作为额外上下文，使用语言模型（LM）子网络，以及引入了一种新的贪婪解码算法来解决块边界附近的插入和删除错误，提高了语音处理的准确性和响应速度。

Sep, 2023

视觉语义提高了场景文本识别中的文本推理水平

该研究提出了一种基于图卷积网络的文本推理（GTR）方法并将其应用于场景文本识别中，该方法可以利用像素之间的空间关联来提高文本识别的性能，并在六个具有挑战性的基准测试中获得最新的最佳结果。

Dec, 2021