文档图像矫正的几何表征学习

ECCVOct, 2022

Geometric Representation Learning for Document Image Rectification

Hao Feng, Wengang Zhou, Jiajun Deng, Yuechen Wang, Houqiang Li

TL;DRDocGeoNet 通过引入明确的几何表示来进行文档图像纠正，其中涉及文档图像的两个典型属性：3D 形状和文本行。

Abstract

In document image rectification, there exist rich geometric constraints between the distorted image and the ground truth one. However, such geometric constraints are largely ignored in existing advanced solutions, which limits the rectification performance. To this end, we present

document image rectification geometric representation 3d shape textlines docgeonet

发现论文，激发创造

深度无限制文档图像矫正

本文介绍了一种用于无限制文档图像修正的新型统一框架 DocTr++，并阐明了其在多方面方面的技术改进和应用优势，这是第一个学习为基础的方法用于无限制文档图像纠正。

Apr, 2023

DocTr: 文档图像转换器，用于几何畸变和照明校正

本文提出了一种新的框架，称为文档图像变压器 (DocTr)，以解决文档图像的几何和光照失真问题。具体来说，DocTr 由几何展开变压器和光照校正变压器组成。通过设置一组学习的查询嵌入，几何展开变压器通过自注意机制捕获文档图像的全局上下文，并解码逐像素的位移解以校正几何失真。在几何展开后，我们的光照校正变压器进一步去除阴影伪影，以改善视觉质量和 OCR 准确性。我们在几个数据集上进行了广泛的评估，并报告了针对最先进方法的优越结果。值得注意的是，我们的 DocTr 实现了 20.02％的字符错误率 (CER)，比最先进的方法提高了 15％绝对值。此外，它还显示出运行时间和参数计数的高效性。

Oct, 2021

DocMAE: 基于自监督表示学习的文档图像矫正

本文提出了一个名为 DocMAE 的自监督框架来学习文本图像校正问题中的有效信息表示，通过利用掩模自编码器编码文本图像的结构线索来使文本图像校正受益。

Apr, 2023

网格规则化重新审视文档图像去畸变

本文提出了一种基于约束优化的方法来解决文档图像去畸变的问题，该方法考虑了文本行和文档边界，并引入了一种新的网格正则化策略来提高可读性，并在 DocUNet 基准测试中取得了最好的图像质量。

Mar, 2022

GeoLayoutLM: 视觉信息提取的几何预训练

本文提出了一种名为 GeolayoutLM 的多模态框架，通过显式地建模提前准备阶段的几何关系来解决 Visual information extraction 领域中 semantic entity recognition 和 relation extraction 模型中的局限性，并在相关基准测试中取得了竞争性的高分数。

Apr, 2023

GeoDesc: 融合几何约束学习局部描述符

本文提出一种新颖的基于几何约束的局部描述符学习方法 ——GeoDesc，旨在改善学习局部描述符在图片三维重建中的泛化性能不足的问题。结果表明，GeoDesc 在各种大型基准测试中表现出优异的性能，并在具有挑战性的重建任务中显著成功。此外，本文提供了在 SfM 流水线中实际集成学习描述符的指南，展示了 GeoDesc 在精度和效率之间能够提供的良好平衡。

Jul, 2018

DocScanner: 具有渐进式学习的鲁棒性文档图像矫正

DocScanner 是一个新颖的文件图像矫正框架，它维护了单个矫正图像的估计，并通过一种递归机制进行了逐步纠正。基于几何先验，还引入了一种几何规则化来进一步提高纠正质量，并在 Doc3D 数据集和 DocUNet 基准数据集上进行了广泛实验，结果表明 DocScanner 在 OCR 准确性、图像相似度以及所提出的扭曲度量上优于先前方法，并表现出优越的运行时延和模型大小。

Oct, 2021

重新思考不规则场景文本识别

本文介绍了基于矩形化的文字识别方法的一些技巧，使其在曲线文本数据集上表现出色，并在 ICDAR 2019 任意形状文本挑战中获得了较高的准确性。

Aug, 2019

基于深度学习的盲图像几何失真校正

我们提出了第一个通用框架，用于自动纠正单个输入图像中不同类型的几何畸变。我们的方法采用卷积神经网络（CNN），通过使用大型合成畸变数据集进行训练，以预测扭曲图像和校正图像之间的位移场。模型拟合方法使用 CNN 输出估计畸变参数，实现更准确的预测，并使用高效，高质量的重采样方法生成最终的校正图像。实验结果表明，我们的算法优于传统的校正方法，可实现有趣的应用，如畸变转移，畸变夸张和共同发生的畸变校正。

Sep, 2019

基于几何感知的高效文本识别

本文介绍用于场景文本识别的深度学习架构 GeoTRNet 的概念、理论、实现及实验结果，该架构专用于处理常规场景文本，只使用几何特征识别图像中的数字，具有优异的模型可部署性、数据隐私性、模型可靠性，同时具有最小化模型权重、更短的推理时间等优势。

Feb, 2023