利用空间和频率的二值化文件处理

Apr, 2024

利用空间和频率的二值化文件处理

Binarizing Documents by Leveraging both Space and Frequency

Fabio Quattrini, Vittorio Pippi, Silvia Cascianelli, Rita Cucchiara

TL;DR基于快速傅里叶卷积，提出了一种能够处理文档图像二值化问题的替代方案，克服了标准卷积在建模全局信息方面的局限性，同时比 Vision Transformer 需要更少的参数。

Abstract

document image binarization is a well-known problem in document analysis and computer vision, although it is far from being solved. One of

document image binarization document analysis computer vision vision transformer fast fourier convolutions

发现论文，激发创造

完全卷积神经网络实现的文件图像二值化

该研究论文介绍了一种基于全卷积网络的二值化方法，该方法在历史手稿图像及其他领域如棕榈叶手稿的二值化任务中具有良好的性能表现，并在多个指标上优于竞争对手。作者还分析了不同超参数、数据集及输入特征对算法性能的影响。

Aug, 2017

DocBinFormer：一种用于有效文档图像二值化的两级 Transformer 网络

提出了一种名为 DocBinFormer（文档二值化变换器）的基于视觉变换器的两级架构，用于有效地对文档图像进行二值化分析，该架构利用双级变换器编码器从输入图像中有效地捕获全局和局部特征表示，从而在系统生成和手写文档图像的分析中取得了改进的结果，并在 DIBCO 和 H-DIBCO 基准数据集上超过了现有技术的表现。

Dec, 2023

不同文件图像二值化方法的分析研究

本文研究文档图像的二值化处理及其在识别、算法优化等方面的应用。通过比较已有算法的优缺点，对其进行修改以达到更好的时间或表现。

Jan, 2015

BiViT: 二值化视觉转换器的极度压缩

本研究提出了针对视觉 Transformers 的二值化方法，其中包括了对 softmax attention 的优化，采用 Cross-layer Binarization 和引入可学习的通道缩放因子等技巧，最终实现了在 TinyImageNet 和 ImageNet 中超越现有技术并取得最佳效果。

Nov, 2022

各种基于深度学习的文档图像二值化方法的公正评估

文档图像二值化是文档分析领域重要的预处理步骤，但没有进行系统比较。本研究通过相同评估协议评估了不同深度学习方法在各种 DIBCO 数据集上的表现，发现 DE-GAN 在 DIBCO2013 数据集上效果最好，DP-LinkNet 在 DIBCO2017 数据集上表现最佳，2-StageGAN 在 DIBCO2018 数据集上表现最佳，SauvolaNet 在 DIBCO2019 数据集上胜过其他方法。为了保证可重现性并简化未来的二值化评估，我们公开了代码、所有模型和评估。

Jan, 2024

二值视觉 Transformer：高效和准确度的探索

本论文提出了一种名为 BinaryViT 的方法，通过引入梯度正则化方案和激活偏移模块解决了 Vision Transformers 全量二值化所面临的性能降低和信息失真问题，使得其在计算和存储资源受限的设备上也能有更好的运行表现。

May, 2023

用于改进历史文献图像增强的逐层令牌到令牌转换网络

提出了一种基于 Tokens-to-token 视觉变换器的新型文档二值化编码 - 解码器架构 T2T-BinFormer，通过逐步分词技术捕捉图像的局部信息，优于现有的 CNN 和 ViT 方法，在各个基准测试中表现出更高的效果。

Dec, 2023

基于双鉴别器生成对抗网络的 JPEG 压缩域文档图像二值化

本文提出了一种直接使用 JPEG 压缩流进行文档图像二值化的方法，采用 Dual Discriminator 生成对抗网络，在包含噪声和失真的情况下，经过全面的测试，结果表明该模型具有高度的鲁棒性和效率，同时在 JPEG 压缩领域表现出最先进的性能。

Sep, 2022

BinaryViT：将二值化 Transformer 推向卷积模型

本文提出 BinaryViT 来增强二进制 ViT 的表现能力，加入了一些 CNN 结构的操作，包括平均池化层、多个平均池化支路、仿射变换等，实验证明，这使得一个纯二进制 ViT 模型非常具有竞争力。

Jun, 2023

DeepOTSU：使用迭代深度学习进行文档增强和二值化

本文提出了一种新的迭代深度学习框架，并将其应用于文档增强和二值化。通过学习文档图像中的退化过程，该网络能够逐步细化输出，实现文档增强。通过在全局或本地阈值下使用增强的图像，可以获得二值化图。实验结果表明，所提出的方法适用于可视化和基于 Otsu 阈值的二值化处理。

Jan, 2019