该研究论文介绍了一种基于全卷积网络的二值化方法,该方法在历史手稿图像及其他领域如棕榈叶手稿的二值化任务中具有良好的性能表现,并在多个指标上优于竞争对手。作者还分析了不同超参数、数据集及输入特征对算法性能的影响。
Aug, 2017
提出了一种名为 DocBinFormer(文档二值化变换器)的基于视觉变换器的两级架构,用于有效地对文档图像进行二值化分析,该架构利用双级变换器编码器从输入图像中有效地捕获全局和局部特征表示,从而在系统生成和手写文档图像的分析中取得了改进的结果,并在 DIBCO 和 H-DIBCO 基准数据集上超过了现有技术的表现。
Dec, 2023
本文研究文档图像的二值化处理及其在识别、算法优化等方面的应用。通过比较已有算法的优缺点,对其进行修改以达到更好的时间或表现。
Jan, 2015
本研究提出了针对视觉 Transformers 的二值化方法,其中包括了对 softmax attention 的优化,采用 Cross-layer Binarization 和引入可学习的通道缩放因子等技巧,最终实现了在 TinyImageNet 和 ImageNet 中超越现有技术并取得最佳效果。
Nov, 2022
文档图像二值化是文档分析领域重要的预处理步骤,但没有进行系统比较。本研究通过相同评估协议评估了不同深度学习方法在各种 DIBCO 数据集上的表现,发现 DE-GAN 在 DIBCO2013 数据集上效果最好,DP-LinkNet 在 DIBCO2017 数据集上表现最佳,2-StageGAN 在 DIBCO2018 数据集上表现最佳,SauvolaNet 在 DIBCO2019 数据集上胜过其他方法。为了保证可重现性并简化未来的二值化评估,我们公开了代码、所有模型和评估。
Jan, 2024
本论文提出了一种名为 BinaryViT 的方法,通过引入梯度正则化方案和激活偏移模块解决了 Vision Transformers 全量二值化所面临的性能降低和信息失真问题,使得其在计算和存储资源受限的设备上也能有更好的运行表现。
May, 2023
提出了一种基于 Tokens-to-token 视觉变换器的新型文档二值化编码 - 解码器架构 T2T-BinFormer,通过逐步分词技术捕捉图像的局部信息,优于现有的 CNN 和 ViT 方法,在各个基准测试中表现出更高的效果。
本文提出了一种直接使用 JPEG 压缩流进行文档图像二值化的方法,采用 Dual Discriminator 生成对抗网络,在包含噪声和失真的情况下,经过全面的测试,结果表明该模型具有高度的鲁棒性和效率,同时在 JPEG 压缩领域表现出最先进的性能。
Sep, 2022
本文提出 BinaryViT 来增强二进制 ViT 的表现能力,加入了一些 CNN 结构的操作,包括平均池化层、多个平均池化支路、仿射变换等,实验证明,这使得一个纯二进制 ViT 模型非常具有竞争力。
Jun, 2023
本文提出了一种新的迭代深度学习框架,并将其应用于文档增强和二值化。通过学习文档图像中的退化过程,该网络能够逐步细化输出,实现文档增强。通过在全局或本地阈值下使用增强的图像,可以获得二值化图。实验结果表明,所提出的方法适用于可视化和基于 Otsu 阈值的二值化处理。
Jan, 2019