DECDM:利用循环一致性扩散模型进行文档增强
本文旨在通过机器学习实现机器打印字符图像(即字体图像)和手写字符图像之间的转换。为此,我们提出了一种新颖的无配对图像域转换方法 CycleDM,将 CycleGAN 的概念融入扩散模型中。具体而言,CycleDM 具有两个内部转换模型,将两个图像域的去噪过程进行桥接。这些转换模型在不需要显式对应关系的情况下进行高效训练。通过将机器打印字符图像和手写字符图像应用于这两种模态,CycleDM 实现了它们之间的转换。我们对转换后的图像进行了定量和定性评估实验,发现我们的方法优于其他可比较的方法。
Mar, 2024
提出一种 DDPM 概率模型用于生成手写体图像样本,并引入渐进式数据过滤策略,可将 OCR 模型在 IAM 基准任务上的错误率相对降低 45%。
May, 2023
本研究提出了基于 DDPM 的 change-aware diffusion model (CADM) 模型,使用有限的标注数据快速训练,采用动态差分条件编码来增强 bitemporal change detection 任务中的区域注意力,实验结果表明相对于现有模型表现显著更优,充分说明了该模型的泛化性和有效性。
Jun, 2023
本文提出了一种名为 DDM 的扩散模型,通过将复杂的扩散过程分解为两个相对简单的过程,来提高生成效果和速度,它通过显式转移概率近似图像分布,并通过标准维纳过程控制噪声路径;文章还提出了一个新的 DPM 训练目标,能够分别预测噪声和图像成分,同时,DDM 的逆向去噪公式可以自然地支持少数的生成步骤(不需要基于 ODE 的加速器),实验结果表明,DDM 在更少的函数评估方面优于以前的 DPM。
Jun, 2023
通过提高输入与输出的互信息,利用条件离散对比扩散 (CDCD) 损失和两种对比扩散机制,将对比学习和传统变分目标相结合,我们成功地提高了多模式条件综合生成模型的输入输出对应性并取得了良好的结果。
Jun, 2022
提出了一种级联多路径快捷扩散模型(CMDM),用于高质量医学图像翻译和不确定性估计,能够产生与最先进方法相媲美的高质量翻译,并提供与翻译误差相关的合理不确定性估计。
Apr, 2024
本文提出一种基于 DDPM 模型从字体库生成手写汉字样本的方法,通过将新类别的 DDPM 合成样本与其他类别的真实样本相结合,提出了一种支持完整字符集的 HCCR 系统,实验结果表明,合成的样本在识别准确率上与真实样本具有相似的性能。
May, 2023
提出了一种新的预训练方法,OCR-Text Destylization Modeling(ODM),能够更好地对齐文本和 OCR-Text,使预训练模型适应场景文本检测和识别任务中的复杂多样的风格,并通过新的标注生成方法和 Text-Controller 模块降低了 OCR 任务中的标注成本,从而使更多的无标签数据参与预训练。大量的实验证明了该方法在场景文本检测和识别任务中显著提高了性能,并超过了当前预训练方法。
Mar, 2024
提出一种基于扩散概率模型 (DPM) 的新型生成框架 NAF-DPM,用于恢复被损坏文档的原始质量。通过引入高效无线激活的网络和快速求解常微分方程的采样器,减少了 DPM 的推断时间。实验证明,该方法在像素级和感知相似度度量方面达到了最先进的性能,并且增强了 OCR 系统在转录被我们框架加强的真实文档图像时的字符错误率。
Apr, 2024
该研究探索了从扫描副本中恢复高质量内容的问题,并引入了一个名为 DESCAN-18K 的新的高质量和大规模数据集,其中包含多种复杂失真。研究人员提出了一种名为 DescanDiffusion 的图像恢复模型,它由一个纠正全局颜色退化的颜色编码器和一个移除局部退化的条件去噪扩散概率模型(DDPM)组成,并通过综合实验和分析证明其表现优于其他基线方法,包括商业恢复产品。
Feb, 2024