本文提出了 MataDoc 方法,首次专注于具有边界矩形和文本感知正则化的任意边界文档矫正,通过明确考虑背景一致性来增强边界感知,引入了词位置一致性以保持矫正后的文档图像中的文本行直线,通过 ArbDoc 基准测试全面评估了 MataDoc 方法,在 ArbDoc、DocUNet、DIR300 和 WarpDoc 数据集上证明了该方法的优越性。
Jul, 2023
通过全卷积神经网络 (FCN) 估算像素位移来实现文档图像矫正与背景消除,我们提出了一种新的框架来估算像素位移,训练 FCN 通过回归失真文档的位移,我们提出了局部平滑约束(LSC)作为正则化以控制平滑度。实验表明,我们的方法在各种几何失真下可有效去除文档图像畸变,并在局部细节和总体效果上取得了最先进的性能。
Apr, 2021
本文提出一种简单而有效的方法,通过估计控制点和参考点,在控制点和参考点之间采用插值方法,将稀疏映射转换为反向映射,并将原始扭曲的文档图像映射到矫正后的图像,从而矫正文档图像。实验表明,我们的方法能够矫正各种扭曲类型的文档图像,并在真实数据集上实现最先进的性能。文章还提供了一个用于文档去除畸变的控制点训练数据集。
Mar, 2022
DocGeoNet 通过引入明确的几何表示来进行文档图像纠正,其中涉及文档图像的两个典型属性:3D 形状和文本行。
Oct, 2022
本文提出了一种基于深度学习的 Gated and Bifurcated Stacked U-Net 的方法,用于去除手持设备捕捉的文档图像中的失真,并在大幅减少所需数据量的情况下,在 DocUNet 数据集上实现了最先进的性能。
Jul, 2020
本文介绍了一种名为 FDRNet 的基于傅里叶变换的文档恢复网络,采用弹性薄板样条插值(Thin Plate Spline)技术对文档进行去形变,可以提高文档识别的准确性。该算法能够处理多种变形效果并在文本识别任务方面实现显著优于现有技术的性能。
本文介绍了一种用于无限制文档图像修正的新型统一框架 DocTr++,并阐明了其在多方面方面的技术改进和应用优势,这是第一个学习为基础的方法用于无限制文档图像纠正。
Apr, 2023
通过构建 Deformable Grid 替代卷积神经网络中的传统池化层,可以更好地对齐高频图像内容,从而在语义分割和对象蒙版注释等任务中获得更准确的结果。
Aug, 2020
本文提出了一种使用极坐标表示(Polar-Doc)的文档平整化方法,将分割和去变形网络统一到单个阶段中进行点回归框架的训练,在像素对齐度量和 OCR 度量方面取得了新的最优表现。
Dec, 2023
本文提出了一种基于全局优化的光流估计方法,通过针对规则化的映射空间高效匹配数万个节点和位移计算,实现了从二次复杂度到线性复杂度的优化。通过对单分辨率规则格网优化实现连续插值,该领域达到了最新的实验性能。
Apr, 2016