DECDM：利用循环一致性扩散模型进行文档增强

Nov, 2023

DECDM：利用循环一致性扩散模型进行文档增强

DECDM: Document Enhancement using Cycle-Consistent Diffusion Models

Jiaxin Zhang, Joy Rimchala, Lalla Mouatadid, Kamalika Das, Sricharan Kumar

TL;DR基于扩散模型的光学字符识别（OCR）在自动文档处理和文档智能方面对文档图像质量非常依赖，研究提出了一种新的端到端文档级图像转换方法 DECDM 来解决现有方法的数据分离和隐私保护问题，该方法通过独立训练源和目标模型，消除了配对训练的限制，提高了性能的数量和质量的比较。

Abstract

The performance of optical character recognition (OCR) heavily relies on document image quality, which is crucial for automatic document processing and document intelligence. However, most existing →

optical character recognition document image quality document enhancement methods end-to-end document-level image translation diffusion models

发现论文，激发创造

CycleDM 透過跨領域圖像轉換

本文旨在通过机器学习实现机器打印字符图像（即字体图像）和手写字符图像之间的转换。为此，我们提出了一种新颖的无配对图像域转换方法 CycleDM，将 CycleGAN 的概念融入扩散模型中。具体而言，CycleDM 具有两个内部转换模型，将两个图像域的去噪过程进行桥接。这些转换模型在不需要显式对应关系的情况下进行高效训练。通过将机器打印字符图像和手写字符图像应用于这两种模态，CycleDM 实现了它们之间的转换。我们对转换后的图像进行了定量和定性评估实验，发现我们的方法优于其他可比较的方法。

Mar, 2024

借助基于 Glyph 条件去噪扩散概率模型生成的训练样本改进手写 OCR

提出一种 DDPM 概率模型用于生成手写体图像样本，并引入渐进式数据过滤策略，可将 OCR 模型在 IAM 基准任务上的错误率相对降低 45%。

May, 2023

基于差分特征引导 DDPM 的变化检测图生成的变化传播

本研究提出了基于 DDPM 的 change-aware diffusion model (CADM) 模型，使用有限的标注数据快速训练，采用动态差分条件编码来增强 bitemporal change detection 任务中的区域注意力，实验结果表明相对于现有模型表现显著更优，充分说明了该模型的泛化性和有效性。

Jun, 2023

具有明确转移概率的解耦扩散模型

本文提出了一种名为 DDM 的扩散模型，通过将复杂的扩散过程分解为两个相对简单的过程，来提高生成效果和速度，它通过显式转移概率近似图像分布，并通过标准维纳过程控制噪声路径；文章还提出了一个新的 DPM 训练目标，能够分别预测噪声和图像成分，同时，DDM 的逆向去噪公式可以自然地支持少数的生成步骤（不需要基于 ODE 的加速器），实验结果表明，DDM 在更少的函数评估方面优于以前的 DPM。

Jun, 2023

跨模态音乐和图像生成的离散对比扩散

通过提高输入与输出的互信息，利用条件离散对比扩散 (CDCD) 损失和两种对比扩散机制，将对比学习和传统变分目标相结合，我们成功地提高了多模式条件综合生成模型的输入输出对应性并取得了良好的结果。

Jun, 2022

医学图像翻译的串联多路径快捷扩散模型

提出了一种级联多路径快捷扩散模型（CMDM），用于高质量医学图像翻译和不确定性估计，能够产生与最先进方法相媲美的高质量翻译，并提供与翻译误差相关的合理不确定性估计。

Apr, 2024

使用去噪扩散概率模型进行零样本生成训练数据以提高手写汉字识别的准确性

本文提出一种基于 DDPM 模型从字体库生成手写汉字样本的方法，通过将新类别的 DDPM 合成样本与其他类别的真实样本相结合，提出了一种支持完整字符集的 HCCR 系统，实验结果表明，合成的样本在识别准确率上与真实样本具有相似的性能。

May, 2023

ODM：场景文本检测和定位的文本图像进一步对齐预训练方法

提出了一种新的预训练方法，OCR-Text Destylization Modeling（ODM），能够更好地对齐文本和 OCR-Text，使预训练模型适应场景文本检测和识别任务中的复杂多样的风格，并通过新的标注生成方法和 Text-Controller 模块降低了 OCR 任务中的标注成本，从而使更多的无标签数据参与预训练。大量的实验证明了该方法在场景文本检测和识别任务中显著提高了性能，并超过了当前预训练方法。

Mar, 2024

NAF-DPM: 一个用于文档增强的非线性无激活扩散概率模型

提出一种基于扩散概率模型 (DPM) 的新型生成框架 NAF-DPM，用于恢复被损坏文档的原始质量。通过引入高效无线激活的网络和快速求解常微分方程的采样器，减少了 DPM 的推断时间。实验证明，该方法在像素级和感知相似度度量方面达到了最先进的性能，并且增强了 OCR 系统在转录被我们框架加强的真实文档图像时的字符错误率。

Apr, 2024

Descanning: 通过色彩校正扩散模型将扫描后的图像还原为原始图像

该研究探索了从扫描副本中恢复高质量内容的问题，并引入了一个名为 DESCAN-18K 的新的高质量和大规模数据集，其中包含多种复杂失真。研究人员提出了一种名为 DescanDiffusion 的图像恢复模型，它由一个纠正全局颜色退化的颜色编码器和一个移除局部退化的条件去噪扩散概率模型（DDPM）组成，并通过综合实验和分析证明其表现优于其他基线方法，包括商业恢复产品。

Feb, 2024