基于DWT和正规化的高效GAN用于文档图像二值化
本文提出一种使用二进制生成对抗网络(BGAN)进行无监督学习的图片编码方法,通过限制噪声变量为二进制并使用新的标志激活策略和损失函数,在不松弛约束条件下生成二进制编码,并提高了图像检索的准确性,相较于现有的哈希方法,我们的方法在标准数据集上的表现提高了107%。
Aug, 2017
本教程讨论了GAN技术及其在不同信息检索场景下的离散数据拟合的变体, 着重介绍了IRGAN的基本GAN框架和直接应用在信息检索中拟合单个ID数据分布, 以及GAN在生成文本和图形数据等方面的解决方案, 并介绍了IRGAN和Texygen等相关开源平台来帮助研究者进行有关GAN的信息检索实验, 最后对GAN在信息检索中未来研究方向进行了综合总结和展望。
Jun, 2018
本文提出了一种新的迭代深度学习框架,并将其应用于文档增强和二值化。通过学习文档图像中的退化过程,该网络能够逐步细化输出,实现文档增强。通过在全局或本地阈值下使用增强的图像,可以获得二值化图。实验结果表明,所提出的方法适用于可视化和基于Otsu阈值的二值化处理。
Jan, 2019
本研究提出一种动态内存生成对抗网络(DM-GAN),用于解决现有文字生成图片方法在生成高质量图像过程中存在的问题。DM-GAN 能够更准确地从文本描述生成图像,其中一个动态内存模块被引入以完善模糊的图像内容,并通过一个内存写入门来选择重要的文本关键信息。实验结果表明,DM-GAN 模型在 Caltech-UCSD 鸟类 200 数据集和 Microsoft COCO 数据集上的性能超越了现有方法。
Apr, 2019
该研究提出了一种名为DE-GAN的文档增强生成对抗网络框架,通过条件GAN对严重降解的文档图像进行恢复,实验证明DE-GAN可以在文本清理,二值化,去除模糊和去水印等不同任务中产生高质量的文档修复版本,并且相对于其他最先进的方法,它能够提供持续的改进,证明了该模型将被应用在其他文档增强问题上的灵活性。
Oct, 2020
本文提出了一种直接使用JPEG压缩流进行文档图像二值化的方法,采用Dual Discriminator生成对抗网络,在包含噪声和失真的情况下,经过全面的测试,结果表明该模型具有高度的鲁棒性和效率,同时在JPEG压缩领域表现出最先进的性能。
Sep, 2022
使用离散小波变换(DWT)和生成式对抗网络(GAN)的CCDWT-GAN模型在文本信息提取方面表现良好,可用于处理受污染的文本图像。
May, 2023
文档图像二值化是文档分析领域重要的预处理步骤,但没有进行系统比较。本研究通过相同评估协议评估了不同深度学习方法在各种 DIBCO 数据集上的表现,发现 DE-GAN 在 DIBCO2013 数据集上效果最好,DP-LinkNet 在 DIBCO2017 数据集上表现最佳,2-StageGAN 在 DIBCO2018 数据集上表现最佳,SauvolaNet 在 DIBCO2019 数据集上胜过其他方法。为了保证可重现性并简化未来的二值化评估,我们公开了代码、所有模型和评估。
Jan, 2024