场景文本识别的原始表示学习

May, 2021

Primitive Representation Learning for Scene Text Recognition

Ruijie Yan, Liangrui Peng, Shanyu Xiao, Gang Yao

TL;DR使用基本表示学习方法来处理多方向场景文本，通过构建一个基本表示学习神经网络和图卷积网络来实现。把学习到的视觉文本表示和 2D 注意力机制的编码 - 解码模型结合起来，提出了一个 PREN2D 框架，该框架在英文和中文场景文本识别任务中实现了最先进的表现。

Abstract

scene text recognition is a challenging task due to diverse variations of text instances in natural scene images. Conventional methods based on CNN-RNN-CTC or encoder-decoder with attention mechanism may not fully investigate stable and efficient feature representations for multi-orien

scene text recognition primitive representation learning graph convolutional network visual text representation encoder-decoder with 2d attention

发现论文，激发创造

基于整体表征的引导注意力网络用于场景文字识别

本研究提出一种基于全局特征引导注意力的二维卷积神经网络和序列解码器来识别场景文本的简单但强大方法，训练时仅使用单词级别的注释，相比循环神经网络，能够在前向和后向传递中获得 1.3x 至 9.4x 不等的加速。在评估的正常和不规则的场景文本基准数据集上实现了最先进或竞争性的识别性能。

Apr, 2019

将预训练的语言编码器融入自动驾驶轨迹预测模型

本研究提出了一种新颖的基于文本的交通场景表示方法，并使用预训练语言编码器进行处理。我们展示了文本表示与传统光栅图像表示结合可以产生描述性的场景嵌入。在 nuScenes 数据集上对我们的预测进行了基准测试，并与基准模型相比显示了显著改进。消融实验结果表明，文本和光栅图像的联合编码器优于各自编码器，证实了两种表示方法具有互补的优势。

Sep, 2023

基于语义推理网络的准确场景文本识别

提出了一个新的基于语义推理网络的端到端的可训练框架，用于场景文本识别，其中引入了全局语义推理模块来通过多向并行传输捕获全局语义内容，具有比基于循环神经网络方法更快的速度。该方法在包括正常文本、不规则文本和非拉丁长文本在内的 7 个公共基准上取得了最先进的结果，验证了其有效性和鲁棒性。

Mar, 2020

提高场景文本检测器的视觉语言预训练

本文研究了视觉 - 语言联合表征学习在场景文本检测中的应用，提出了利用视觉 - 语言预训练学习得到的上下文化联合表征来提高场景文本检测器的性能，通过三个 pretext tasks 来进行预训练，在标准基准测试中证明了该方法能够显著提高各种代表性的文本检测器的性能。

Apr, 2022

从二维视角进行场景文本识别

采用二维视角，提出了基于字符注意力全卷积网络的场景文本识别算法，该算法在语义分割网络中采用了字符注意机制和词形成模块，在不失精度的情况下更具有鲁棒性。

Sep, 2018

通过学习图像描述实现深度结构场景解析

本文提出了一种基于深度架构的场景理解方法，通过一个卷积神经网络和一个递归神经网络分别提取图像特征和分层物体结构，结合基于描述性语句的弱监督训练，实现场景图像的自动解析，该方法在 PASCAL VOC 2012 数据集上表现出色。

Apr, 2016

融合场景文本与视觉外观进行细粒度图像分类

本文提出了一种利用场景文本进行图像理解的方法，通过符号识别系统获取识别的单词和深层视觉特征的嵌入组合成一个可通过卷积神经网络进行优化的单一表示形式。通过引入注意力机制强化符号与图像之间的关系，不仅有效地提高分类准确率，而且可较大幅度提升产品图像检索性能。

Apr, 2017

基于 Transformer 的场景文本识别

本论文提出了一种基于 transformer 的简单但极其有效的场景文本识别方法，只需要空间注意力而不需要矫正图像，仅使用卷积特征图作为单词嵌入输入到 transformer 中，并在大规模实验中取得了显著的优越性能。

Mar, 2020

预训练图循环网络用于语言表示

本研究提出了一种基于图循环网络的语言模型预训练方法，其在性能、效率和生成多样性方面优于基于注意力机制的 Transformer，用于自监督学习的时候有较高的潜力。

Sep, 2022

场景文本识别的视觉注意力模型

本文提出了一种无词典的场景图像文本识别方法，该方法基于一种基于 LSTM 的软视觉注意模型，该模型从卷积特征中学习。通过导出与图像不同区域对应的中间卷积层的一组特征向量，实现了对空间信息的编码，从而使框架能够学习如何选择性地聚焦于图像的不同部分。除此之外，我们还展示了通过将显式语言模型集成到束搜索算法中来修改改良的束搜索算法可以导致更好的识别结果，以标准的 SVT 和 ICDAR'03 场景文本数据集为基础，证明了我们方法在无约束文本识别中的卓越表现。

Jun, 2017