- ECCV通过视觉匹配实现自适应文本识别
该研究旨在解决文档中的文本识别的泛化和灵活性问题。该研究提出了一种新模型,通过利用语言中字符的重复性,将文本识别转化为形状匹配问题,从而实现了外观的泛化和分类的灵活性。该模型可以解决传统架构无法解决的挑战,并在不同字母表的合成和真实数据集上 - ECCV字符区域关注网络用于文本检测
本研究将文本检测和识别模块融合,并采用基于注意力机制的解码器,通过利用角色评分图来更好地关注字符中心点,实现了一种紧密耦合的单管道模型,扩展了开放式直线和曲线基准数据集的最新性能。
- CVPROrigamiNet: 通过学习折叠过程实现弱监督、无分割、一步到位、全页文本识别
这篇文献提出了一种名为 OrigamiNet 的神经网络模块,用于将单行文本识别转化为多行 / 全页文本识别,且无需分割图像,可以实现更高的准确率,最终在手写文字识别的基准测试中取得了最佳结果。
- 野外场景中的文本识别:一项调查
该论文总结了场景文本识别的基本问题和最新技术,提供了相关资源,指出了未来的研究方向。
- 基于图像处理的场景文本检测与识别:Tesseract
本研究着重于自然图像中文字的检测和识别,使用基于卡车上的摄像机捕捉图像的方法,利用 Tesseract OCR 引擎来识别检测到的文字区域。研究中讨论了测试中出现的一个重要的假阳性情况并阐述了缓解该问题的策略。最终,该项目实现了超过 80% - ECCVTextCaps:一种带有阅读理解的图像字幕数据集
该研究创建了一个新的数据集 TextCaps,涉及 28k 张图片和 145k 个标题,用于挑战计算机视觉模型识别图像中的文本,与视觉环境进行关联,并决定要复制或释义文本的哪个部分。研究表明,这个新的数据集提供了许多前所未有的技术挑战。
- AAAIText Perceptron: 面向端到端任意形状文本检测
本文提出了一种名为 Text Perceptron 的端到端可训练文本检测方法,利用基于分割的高效检测器和新颖的形状变换模块,实现了文本检测和识别部分的全局优化,取得了在多个基准测试数据集上的优异性能表现。
- AAAI文本识别的解耦注意力网络
提出了一种新的解决注意力机制中的历史解码结果对齐精度不够的问题的方法,叫做解耦式注意力网络 (DAN),并在手写文本识别以及正常 / 非正常场景文本识别等多个文本识别任务中取得了最先进的性能表现。
- AAAI只需边界:面向任意形状的文本识别
该论文提出了一个基于端到端文本检测的点定位方法,通过定位文本边界上的一组点,建立了一种简单而有效的方案,可读取任意形状的文本,并在 ICDAR2015,TotalText 和 COCO-Text 三个数据集上展开实验,实验结果表明,该方法在 - CVPR在自然场景中检测任意形状文本的方法,改进文本识别
提出了一种基于流水线的文本识别框架 UHTA,其中包括用于检测的 UHT 和用于识别的 ASTER。在多个公共场景文本检测数据集上的实验结果表明,UHT 在检测自然场景图像中文本方面具有较好的性能和通用性。
- 基于识别引导的内容感知文本超分辨率
本文提出了一种基于内容感知的文本超分辨率网络,通过使用文本感知损失来指导超分辨率网络的训练,从而更加关注文本内容,有效提高了文本识别的性能。
- 重新思考不规则场景文本识别
本文介绍了基于矩形化的文字识别方法的一些技巧,使其在曲线文本数据集上表现出色,并在 ICDAR 2019 任意形状文本挑战中获得了较高的准确性。
- ICCV基于对称约束的场景文本矫正网络
本文提出一种基于对称约束的矫正网络(ScRN),利用文本实例的局部属性(如中心线、比例和方向)来生成更好的校正结果,从而实现对正常和不规则形状文本的高识别精度。该方法在包含相当比例的不规则文本实例的数据集(例如 ICDAR 2015、SVT - 自然场景下端到端文本识别
该研究提出了一种统一的网络,同时定位和识别文本,通过使用卷积特征和 $2$D 注意力模型实现对任意形状文本的鲁棒定位和识别,避免了中间过程,取得了包括正常及不规则文本在内的多个标准数据集的最佳表现。
- ICCV场景文本视觉问答
本文介绍了一个新数据集,即 ST-VQA,旨在强调利用图像中文本信息的重要性。我们使用这个数据集定义了一系列难度不断增加的任务,需要利用图像中提供的上下文阅读场景文本以进行推理和生成适当的答案。我们提出了一个新的评估指标来考虑推理错误以及文 - 基于序列条件的手写文本图像对抗生成
该研究提出了一种基于生成对抗网络的系统,可以合成手写单词的合成图像,并在将其与现有训练数据集集成后通过改进通用 GAN 体系结构进行离线手写文本识别。
- AAAISEE:半监督端到端场景文本识别
本文提出了 SEE,一个用于自然场景文本检测和识别的半监督神经网络,它能够通过端到端的优化方式实现。相较于现有的多个深度神经网络和多个预处理步骤,SEE 提出了使用单一的深度神经网络的方案,该网络能够学习从自然图像中检测和识别文本,同时我们 - CVPRAON:面向任意方向的文本识别
本文介绍了一种用于识别自然图像中非规则排列文字的新方法,称为任意方向网络(AON),它采用深度学习技术和注意力解码器来生成字符序列,并在多个数据集上取得了最新的性能。
- STN-OCR: 一个单一神经网络实现文本检测和文本识别
本文提出了 STN-OCR,一种使用深度卷积神经网络进行场景文本识别的半监督学习算法,并使用空间变换器网络和文本识别网络完善识别流程,并在公共基准测试数据集上测试了该模型在字符识别和文本行识别的表现。
- 基于卷积递归神经网络的端到端文本定位
该论文提出了一种基于卷积循环神经网络的统一网络,该网络可以同时定位和识别文本,通过端到端训练,提高了性能,在多个基准数据集上取得了竞争性的表现。