不同文件图像二值化方法的分析研究
文档图像二值化是文档分析领域重要的预处理步骤,但没有进行系统比较。本研究通过相同评估协议评估了不同深度学习方法在各种 DIBCO 数据集上的表现,发现 DE-GAN 在 DIBCO2013 数据集上效果最好,DP-LinkNet 在 DIBCO2017 数据集上表现最佳,2-StageGAN 在 DIBCO2018 数据集上表现最佳,SauvolaNet 在 DIBCO2019 数据集上胜过其他方法。为了保证可重现性并简化未来的二值化评估,我们公开了代码、所有模型和评估。
Jan, 2024
该研究论文介绍了一种基于全卷积网络的二值化方法,该方法在历史手稿图像及其他领域如棕榈叶手稿的二值化任务中具有良好的性能表现,并在多个指标上优于竞争对手。作者还分析了不同超参数、数据集及输入特征对算法性能的影响。
Aug, 2017
基于快速傅里叶卷积,提出了一种能够处理文档图像二值化问题的替代方案,克服了标准卷积在建模全局信息方面的局限性,同时比 Vision Transformer 需要更少的参数。
Apr, 2024
本文提出了一种直接使用 JPEG 压缩流进行文档图像二值化的方法,采用 Dual Discriminator 生成对抗网络,在包含噪声和失真的情况下,经过全面的测试,结果表明该模型具有高度的鲁棒性和效率,同时在 JPEG 压缩领域表现出最先进的性能。
Sep, 2022
本文提出了一种基于基线的文本行检测算法评估方案,无需二值化即可处理倾斜和旋转的文本行,同时在 ICDAR 2017 比赛中使用此评估方案并介绍了最新文本行检测算法的效果。
May, 2017
本文提出了一种新的迭代深度学习框架,并将其应用于文档增强和二值化。通过学习文档图像中的退化过程,该网络能够逐步细化输出,实现文档增强。通过在全局或本地阈值下使用增强的图像,可以获得二值化图。实验结果表明,所提出的方法适用于可视化和基于 Otsu 阈值的二值化处理。
Jan, 2019
利用多目标问题公式和非支配排序遗传算法(NSGA-II)调整参数,本文评估了在光学字符识别(OCR)应用于打字文化遗产文件时图像处理方法和参数调整的影响,并发现通过数字表示类型来针对图像预处理算法进行参数化可以提高 OCR 的性能。特别是自适应阈值法、双边滤波器和开操作是剧院封面、信件和整体数据集中表现最好的算法,应在 OCR 之前应用以提高其性能。
Nov, 2023
该论文综述了检测文档图像不同版本中变化的核心技术和规则,重点讨论了基于内容和基于布局的两类技术,总结了现有数据集和评估指标,报告了现有方法面临的缺点和挑战,并提出了未来研究的方向。
Jul, 2023
提出了一种名为 DocBinFormer(文档二值化变换器)的基于视觉变换器的两级架构,用于有效地对文档图像进行二值化分析,该架构利用双级变换器编码器从输入图像中有效地捕获全局和局部特征表示,从而在系统生成和手写文档图像的分析中取得了改进的结果,并在 DIBCO 和 H-DIBCO 基准数据集上超过了现有技术的表现。
Dec, 2023