一种简单的潜隐扩散方法用于全景分割和蒙版修复
使用扩充数据集的方法,通过创建基于注释目标实例的多样化图像和标记对来对实例分割数据集进行增强,同时保留原有标记的一致性。实验结果显示该方法成功生成了实际的目标实例变体,并在扩增区域内引入了多样性。同时,该方法可以与文本指导和其他图像增强技术自然地结合。
Feb, 2024
本文研究了扰动扩散概率模型在语义分割任务中的应用,特别是在标注数据有限的情况下。通过探究预训练扩散模型的中间层,我们发现它们可以有效地捕捉输入图像的语义信息,并成为像素级别的分割表示。基于这些观察,我们提出了一种简单的分割方法,能在仅有少量训练图像的情况下显著提高性能。
Dec, 2021
本文介绍了一种更快的图像重建框架 LMD,通过潜在遮蔽扩散方法,将高分辨率图像投影和重建在潜在空间中,设计了渐进遮蔽扩散模型,通过三种不同的调度器逐渐提高遮蔽比例,以从简单到困难地重建潜在特征,从而加快模型训练速度,同时保持了原始准确性,并在下游任务中显著提高推理速度。
Dec, 2023
本文提出一种使用掩码自编码器作为扩散模型的条件,进而重复生成预训练视觉表示的方法,具备强大的下游识别任务的初始化能力,高质量图像修复和无需额外努力即可应用于视频分类等许多优点。同时,本文还对设计选择的利弊进行了全面的研究并建立了扩散模型和掩码自编码器之间的联系。
Apr, 2023
本研究介绍了一种基于文本的图像编辑方法,利用最新的扩散模型对一些基于文本主题的地方图像进行编辑,通过结合扩散模型的速度和 Blended Diffusion,提高了编辑的效率,并通过优化方法来解决扩散模型无法完美重建图像的问题,实现了比当前方法更高的精度和速度
Jun, 2022
本研究利用基于模拟比特的扩散模型来解决全景分割任务中高维的一对多映射,通过添加过去的预测作为信息输入,能够对视频中的对象实例进行跟踪并自动学习,在各项实验中与现有的专业方法相比表现出了竞争性。
Oct, 2022
通过在预训练的自编码器的潜在空间中应用扩散模型,引入交叉注意力层到模型体系结构中,以更少的计算要求取得接近最优的性能,实现高分辨率合成,缩小像素级 DMs 对计算资源的需求。
Dec, 2021
使用预训练的冻结稳定扩散的 MaskDiffusion 方法实现了开放词汇的语义分割,在没有额外训练或注释的情况下取得了较其他可比的无监督分割方法显著的定性和定量改善。
Mar, 2024
以分层图片生成的视角,从生成图像转变为同时生成背景、前景、图层掩码和合成图像。提出的方法可实现更好的合成工作流和高质量图像输出,同时得到比图像分割产生的图层掩码更高质量的效果。实验结果表明该方法能够生成高质量的分层图片,为未来的工作提供了基准。
Jul, 2023
为满足多种 XR 设备的需求,我们介绍了一种名为 StereoDiffusion 的方法,该方法与传统的修复流程不同,无需训练即可轻松使用,并与原始的 Stable Diffusion 模型完美集成。我们的方法通过修改潜变量,能够快速生成立体图像对,无需微调模型权重或对图像进行后处理。使用原始输入生成左图像并为其估计视差图,我们通过 Stereo Pixel Shift 操作生成右图像的潜向量,同时辅以 Symmetric Pixel Shift Masking Denoise 和 Self-Attention Layers Modification 方法,将右图像与左图像对齐。此外,我们提出的方法在整个立体生成过程中保持了高水平的图像质量,在各种定量评估中取得了最先进的成绩。
Mar, 2024