文档图像矫正的几何表征学习
本文介绍了一种用于无限制文档图像修正的新型统一框架 DocTr++,并阐明了其在多方面方面的技术改进和应用优势,这是第一个学习为基础的方法用于无限制文档图像纠正。
Apr, 2023
本文提出了一种新的框架,称为文档图像变压器 (DocTr),以解决文档图像的几何和光照失真问题。 具体来说,DocTr 由几何展开变压器和光照校正变压器组成。 通过设置一组学习的查询嵌入,几何展开变压器通过自注意机制捕获文档图像的全局上下文,并解码逐像素的位移解以校正几何失真。在几何展开后,我们的光照校正变压器进一步去除阴影伪影,以改善视觉质量和 OCR 准确性。我们在几个数据集上进行了广泛的评估,并报告了针对最先进方法的优越结果。值得注意的是,我们的 DocTr 实现了 20.02%的字符错误率 (CER),比最先进的方法提高了 15%绝对值。 此外,它还显示出运行时间和参数计数的高效性。
Oct, 2021
本文提出了一个名为 DocMAE 的自监督框架来学习文本图像校正问题中的有效信息表示,通过利用掩模自编码器编码文本图像的结构线索来使文本图像校正受益。
Apr, 2023
本文提出了一种基于约束优化的方法来解决文档图像去畸变的问题,该方法考虑了文本行和文档边界,并引入了一种新的网格正则化策略来提高可读性,并在 DocUNet 基准测试中取得了最好的图像质量。
Mar, 2022
本文提出了一种名为 GeolayoutLM 的多模态框架,通过显式地建模提前准备阶段的几何关系来解决 Visual information extraction 领域中 semantic entity recognition 和 relation extraction 模型中的局限性,并在相关基准测试中取得了竞争性的高分数。
Apr, 2023
本文提出一种新颖的基于几何约束的局部描述符学习方法 ——GeoDesc,旨在改善学习局部描述符在图片三维重建中的泛化性能不足的问题。结果表明,GeoDesc 在各种大型基准测试中表现出优异的性能,并在具有挑战性的重建任务中显著成功。此外,本文提供了在 SfM 流水线中实际集成学习描述符的指南,展示了 GeoDesc 在精度和效率之间能够提供的良好平衡。
Jul, 2018
DocScanner 是一个新颖的文件图像矫正框架,它维护了单个矫正图像的估计,并通过一种递归机制进行了逐步纠正。基于几何先验,还引入了一种几何规则化来进一步提高纠正质量,并在 Doc3D 数据集和 DocUNet 基准数据集上进行了广泛实验,结果表明 DocScanner 在 OCR 准确性、图像相似度以及所提出的扭曲度量上优于先前方法,并表现出优越的运行时延和模型大小。
Oct, 2021
我们提出了第一个通用框架,用于自动纠正单个输入图像中不同类型的几何畸变。我们的方法采用卷积神经网络(CNN),通过使用大型合成畸变数据集进行训练,以预测扭曲图像和校正图像之间的位移场。模型拟合方法使用 CNN 输出估计畸变参数,实现更准确的预测,并使用高效,高质量的重采样方法生成最终的校正图像。实验结果表明,我们的算法优于传统的校正方法,可实现有趣的应用,如畸变转移,畸变夸张和共同发生的畸变校正。
Sep, 2019
本文介绍用于场景文本识别的深度学习架构 GeoTRNet 的概念、理论、实现及实验结果,该架构专用于处理常规场景文本,只使用几何特征识别图像中的数字,具有优异的模型可部署性、数据隐私性、模型可靠性,同时具有最小化模型权重、更短的推理时间等优势。
Feb, 2023