面向任意形状场景文本的大规模端到端推理

CVPRMay, 2021

面向任意形状场景文本的大规模端到端推理

TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped scene text

Amanpreet Singh, Guan Pang, Mandy Toh, Jing Huang, Wojciech Galuba...

TL;DR本文利用收集在 TextVQA 数据集的真实图像上的 900K 个文本单词，提出了任意形状的场景文本检测和识别系统 TextOCR，使用该系统训练的 OCR 模型 PixelM4C 在图像上进行场景文本推理，以达到新的 TextVQA 数据集上的最新性能水平。

Abstract

A crucial component for the scene text based reasoning required for textvqa and TextCaps datasets involve detecting and recognizing text present in the images using an optical character recognition (ocr) system.

ocr scene text detection textocr pixelm4c textvqa

发现论文，激发创造

基于图像处理的场景文本检测与识别：Tesseract

本研究着重于自然图像中文字的检测和识别，使用基于卡车上的摄像机捕捉图像的方法，利用 Tesseract OCR 引擎来识别检测到的文字区域。研究中讨论了测试中出现的一个重要的假阳性情况并阐述了缓解该问题的策略。最终，该项目实现了超过 80％的正确字符识别率，并概述了开发阶段、主要挑战和一些有趣的发现。

Apr, 2020

朝着无约束的端到端文本检测

一项新的网络模型使用实例分割方法和注意力模型识别和提取曲线形状的文本内容，并使用多步光学字符识别引擎提高识别准确性，大幅度领先现有模型的准确性。

Aug, 2019

TrOCR: 基于 Transformer 的带预训练模型的光学字符识别

本文提出了一种名为 TrOCR 的端到端文本识别方法，其中使用了预训练的图像 Transformer 和文本 Transformer 模型，不仅适用于印刷体和手写体，还适用于场景文本识别任务，并在准确率方面优于当前最先进的模型。

Sep, 2021

深度学习技术实现高效无词典 OCR

本文提出一种无分割 OCR 系统，该系统将深度学习方法、数据增强方法和合成训练数据结合起来，使用大型文本语料库和 2000 多种字体渲染合成训练数据，并通过几何失真和提出的 alpha-compositing 数据增强技术模拟复杂的自然环境，并采用 CNN 编码器以提取文本图像特征，检验了序列模型与卷积模型在模拟输入元素交互方面的能力。

Jun, 2019

COCO-Text: 自然图像文本检测和识别数据集与基准

本文介绍了 COCO-Text 数据集，该数据集基于 MS COCO 数据集，旨在推进自然图像的文本检测和识别。数据集中包含超过 173,000 个文本注释和超过 63,000 张图像，文本注释覆盖了文本的边界框、机器印刷文本和手写文本的分类、易读和难读文本的分类、文本的字体和可读文本的转录。本文还提供了数据集注释的准确性统计分析，并对三种最先进的光学字符识别方法在数据集上的表现进行了分析，结果表明文本检测和识别存在显著的不足，需要进一步研究。

Jan, 2016

通过伪图像标注和边际损失实现开放词汇场景文本识别

我们提出了一种新的开放词汇文本识别框架 Pseudo-OCR，用于识别现实世界应用中的 OOV 词汇，通过伪标签生成模块、语义检测机制和质量感知边界损失等手段，我们利用真实图像生成大量伪 OOV 训练数据，并在品质上进行过滤和增强，实验结果表明我们的方法在八个数据集上的性能超过了现有技术，并在 ICDAR2022 竞赛中排名第一。

Mar, 2024

TextScanner: 有序读取字符用于强式场景文字识别

本文提出了一种基于 Semantic Segmentation 和 RNN-attention 的新方法 TextScanner，用于场景中的文字识别，并在标准基准数据集上得到了最佳结果，尤其是在中文识别方面。

Dec, 2019

基于 OCR 模态扰动的场景文本视觉问答对抗训练

本研究提出了一种多模态的对抗训练架构，其中引入了对抗性 OCR 增强（AOE）模块和空间感知自注意力（SASA）机制，旨在改善场景文本视觉问答的性能，并为多模态对抗训练提供了新的方法。

Mar, 2024

基于角点定位和区域分割的多方向场景文本检测

该论文提出了一种利用文本边框的角点定位和定位相对位置的文本区域分割方法，结合了一般性物体检测和文本区域分割的优点，避免了它们的缺点，并在 ICDAR2013，ICDAR2015，MSRA-TD500，MLT 和 COCO-Text 上进行了实验，得出了比以前更好或相当的结果。

Feb, 2018

AON：面向任意方向的文本识别

本文介绍了一种用于识别自然图像中非规则排列文字的新方法，称为任意方向网络（AON），它采用深度学习技术和注意力解码器来生成字符序列，并在多个数据集上取得了最新的性能。

Nov, 2017