场景文字识别的编辑概率

May, 2018

Edit Probability for Scene Text Recognition

Fan Bai, Zhanzhan Cheng, Yi Niu, Shiliang Pu, Shuigeng Zhou

TL;DR我们提出了一种称为编辑概率 (EP) 的新方法，它可以有效估计从概率分布输出序列生成字符串的概率，从而解决了由于字符缺失或冗余导致的认知偏差问题，从而大大提高了场景文本识别的性能。

Abstract

We consider the scene text recognition problem under the attention-based encoder-decoder framework, which is the state of the art. The existing methods usually employ a frame-wise maximal likelihood loss to optimize the models. When we train the model, the →

scene text recognition attention-based encoder-decoder framework edit probability misalignment recognition accuracy

发现论文，激发创造

SEED: 场景文本识别的加强语义编码器 - 解码器框架

本研究提出了一种基于编码器 - 解码器框架的语义增强模型来识别低质量的场景文本，它使用显式的全局语义信息，并将现有的 ASTER 方法作为示例，实验证明了该模型对低质量文本图像更加鲁棒，并在多个基准数据集上取得了最先进的结果。

May, 2020

场景文本擦除器

本文提出了一种通过卷积神经网络模型擦除自然场景图像中文字信息的方法，并通过场景文本检测方法对其性能进行了测试，证明了与直接文本检测方式相比，场景文本擦除过程显着降低了精度、召回率和 F1 值。

May, 2017

高效利用语言先验进行场景文本定位

通过利用大型文本语料库中的语言知识，替换自回归场景文本定位和识别模型中传统的独热编码，提高了场景文本定位和识别性能，并实现了更准确的词语定位。

Feb, 2024

端到端可训练的基于图像序列识别的神经网络及其在场景文本识别中的应用

本文提出了一种新颖的神经网络架构，将特征提取、序列建模和转录集成到统一框架中，用于场景文本识别，相比现有算法其具有端到端训练，不需要一定的词典限制，更加适合实际应用等优点，在标准测试数据上展现出更好的性能。

Jul, 2015

利用扩散模型对野外场景文字进行操作

通过引入基于扩散的场景文本操作网络（DBEST），我们设计了两种适应策略，即一次性样式适应和文本识别引导，在各种场景文本数据集上进行了全面评估和比较，并提供了深入的消融研究来分析我们的性能提升。此外，我们还展示了我们提出的方法在合成场景文本方面的有效性，通过竞争的光学字符识别（OCR）准确度，在 COCO-text 和 ICDAR2013 数据集上达到了 94.15% 和 98.12% 的字符级评估。

Nov, 2023

JSTR：判断优化场景文本识别

我们提出了一种通过判断图像和文本是否匹配来提高场景文本识别任务准确性的方法。与之前的研究关注于从输入图像生成识别结果不同，我们的方法还考虑了模型的误识别结果，以了解其错误倾向，从而改进了文本识别流程。该方法通过对模型可能误识别的数据进行预测，提供明确的反馈信息，从而提高了文本识别的准确性。公开可用数据集上的实验结果表明，我们提出的方法在场景文本识别方面超过了基线和最先进的方法。

Apr, 2024

基于 Transformer 的场景文本识别

本论文提出了一种基于 transformer 的简单但极其有效的场景文本识别方法，只需要空间注意力而不需要矫正图像，仅使用卷积特征图作为单词嵌入输入到 transformer 中，并在大规模实验中取得了显著的优越性能。

Mar, 2020

基于注意力机制的情境文本识别自适应嵌入门

本研究提出了一种新的模块，即自适应嵌入门 (AEG)，并将其引入到注意机制中以解决预测限制对于文字场景识别表现的影响。该模块可以显著提高识别表现并带来更好的稳健性。

Aug, 2019

IPAD：一种基于迭代、并行和扩散的场景文本识别网络

提出了一种使用并行和迭代解码器，并采用易先原则解码策略的替代方案，将文本识别视为基于图像的条件文本生成任务，并采用离散扩散策略，确保双向上下文信息的穷举性探索。大量实验证明，该方法在基准数据集上取得了优越的结果，包括中英文文本图像。

Dec, 2023

展示、编辑、描述：一种编辑图像标题的框架

本文提出了一种基于迭代自适应改进现有标题的图像字幕生成的新方法，该方法包括两个子模块：一个具有自适应复制机制和选择性复制存储器注意机制的语言模块 EditNet 和一个基于 LSTM 的去噪自编码器 DCNet，实验表明我们的方法在 MS COCO 数据集上取得了最先进的性能。

Mar, 2020