基于DWT和正规化的高效GAN用于文档图像二值化

Jul, 2024

基于DWT和正规化的高效GAN用于文档图像二值化

Efficient GANs for Document Image Binarization Based on DWT and Normalization

Rui-Yang Ju, KokSheik Wong, Jen-Shiun Chiang

TL;DR基于三阶段网络架构，结合离散小波变换和规范化以降低输入图像尺寸，从而减少训练和推理时间，提供了有效去除阴影和噪声的生成对抗网络方法，通过引入新的生成器、判别器和损失函数进一步改善模型性能，相比于现有技术，在保持模型性能为73.79的平均分上，本方法将训练时间减少了10%，推理时间减少了26%。

Abstract

For document image binarization task, generative adversarial networks (GANs) can generate images where shadows and noise are effectively removed, which allow for text information extraction. The current state-of-

发现论文，激发创造

二进制生成对抗网络用于图像检索

本文提出一种使用二进制生成对抗网络（BGAN）进行无监督学习的图片编码方法，通过限制噪声变量为二进制并使用新的标志激活策略和损失函数，在不松弛约束条件下生成二进制编码，并提高了图像检索的准确性，相较于现有的哈希方法，我们的方法在标准数据集上的表现提高了107%。

Aug, 2017

生成对抗网络用于信息检索：基础与进展

本教程讨论了GAN技术及其在不同信息检索场景下的离散数据拟合的变体, 着重介绍了IRGAN的基本GAN框架和直接应用在信息检索中拟合单个ID数据分布, 以及GAN在生成文本和图形数据等方面的解决方案, 并介绍了IRGAN和Texygen等相关开源平台来帮助研究者进行有关GAN的信息检索实验, 最后对GAN在信息检索中未来研究方向进行了综合总结和展望。

Jun, 2018

DeepOTSU：使用迭代深度学习进行文档增强和二值化

本文提出了一种新的迭代深度学习框架，并将其应用于文档增强和二值化。通过学习文档图像中的退化过程，该网络能够逐步细化输出，实现文档增强。通过在全局或本地阈值下使用增强的图像，可以获得二值化图。实验结果表明，所提出的方法适用于可视化和基于Otsu阈值的二值化处理。

Jan, 2019

学习清洁：GAN透视

该研究论文探讨了使用生成对抗网络（GAN）和CycleGAN，将未配对的噪声和无噪声图像转化为配对的干净文档，以用于清理噪声扰动，实现文档清理的任务。

Jan, 2019

DM-GAN: 动态记忆生成对抗网络用于文本到图像合成

本研究提出一种动态内存生成对抗网络（DM-GAN），用于解决现有文字生成图片方法在生成高质量图像过程中存在的问题。DM-GAN 能够更准确地从文本描述生成图像，其中一个动态内存模块被引入以完善模糊的图像内容，并通过一个内存写入门来选择重要的文本关键信息。实验结果表明，DM-GAN 模型在 Caltech-UCSD 鸟类 200 数据集和 Microsoft COCO 数据集上的性能超越了现有方法。

Apr, 2019

DE-GAN：一种用于文档增强的有条件生成对抗网络

该研究提出了一种名为DE-GAN的文档增强生成对抗网络框架，通过条件GAN对严重降解的文档图像进行恢复，实验证明DE-GAN可以在文本清理，二值化，去除模糊和去水印等不同任务中产生高质量的文档修复版本，并且相对于其他最先进的方法，它能够提供持续的改进，证明了该模型将被应用在其他文档增强问题上的灵活性。

Oct, 2020

基于双鉴别器生成对抗网络的 JPEG 压缩域文档图像二值化

本文提出了一种直接使用JPEG压缩流进行文档图像二值化的方法，采用Dual Discriminator生成对抗网络，在包含噪声和失真的情况下，经过全面的测试，结果表明该模型具有高度的鲁棒性和效率，同时在JPEG压缩领域表现出最先进的性能。

Sep, 2022

T2CI-GAN：使用生成对抗网络进行文本到压缩图像的生成

本文提出一种基于DCGAN的压缩图像生成方法，旨在实现对文本描述的压缩视觉数据直接生成，并在压缩形式下实现了最先进的性能。

Oct, 2022

基于离散小波变换的颜色通道生成对抗网络用于文档图像二值化

使用离散小波变换（DWT）和生成式对抗网络（GAN）的CCDWT-GAN模型在文本信息提取方面表现良好，可用于处理受污染的文本图像。

May, 2023

各种基于深度学习的文档图像二值化方法的公正评估

文档图像二值化是文档分析领域重要的预处理步骤，但没有进行系统比较。本研究通过相同评估协议评估了不同深度学习方法在各种 DIBCO 数据集上的表现，发现 DE-GAN 在 DIBCO2013 数据集上效果最好，DP-LinkNet 在 DIBCO2017 数据集上表现最佳，2-StageGAN 在 DIBCO2018 数据集上表现最佳，SauvolaNet 在 DIBCO2019 数据集上胜过其他方法。为了保证可重现性并简化未来的二值化评估，我们公开了代码、所有模型和评估。

Jan, 2024