- 通过特征空间增强和迭代学习实现长尾图像生成
基于稀疏嵌入和 K-NN 方法,我们提出了一种基于预训练的稳定扩散模型的图像增强方法,以解决图像生成中的数据不平衡问题。
- FashionSD-X: 多模态时尚服装合成基于潜在扩散
这篇研究论文介绍了一种新颖的生成性流程,通过使用潜在扩散模型改变了时尚设计过程,利用 ControlNet 和 LoRA 微调生成高质量图像,从文本和草图等多模态输入生成。我们结合草图数据,对包括 Multimodal Dress Code - CVPR微妙的图像扰动对定制扩散模型造成更高影响
通过观察到交叉注意力层对梯度变化更加敏感,我们提出了一种简单但通用且高效的方法 CAAT,用于有效地欺骗潜在扩散模型 (LDMs)。我们展示了对图像的微小扰动可以显著影响交叉注意力层,从而在定制扩散模型的微调过程中改变文本与图像之间的映射关 - 适应动作的潜在扩散模型用于视频帧插值
通过结合运动估计和目标插帧帧之间的运动先验,提出了一种新的扩散框架(MADiff),该方法在生成视觉平滑和逼真结果方面显著优于现有方法。
- CVPRDISC: 基于分离条件的前列腺癌分级中自陶醉的潜在扩散模型
使用潜在扩散模型(LDMs)生成高质量的图像,以改善组织病理学图像的肿瘤分级模型训练。通过训练特定的 LDMs,利用输入图像上的像素级注释生成包含多个 Gleason Grades(GGs)的合成图像块,并有效利用合成图像块来提升现有模型的 - F2FLDM:基于组织病理学预训练嵌入的潜在扩散模型,用于非配对冷冻切片向 FFPE 转换
我们引入了一种新方法,结合了潜在扩散模型和组织病理预训练嵌入,以增强冰冻切片图像的恢复。通过扩散和去噪技术,我们的方法不仅保留了颜色染色和组织形态等关键诊断特征,还提出了一种嵌入转换机制来更好地预测目标组织病理切片的表示。结果表明,该方法显 - CVPRLD-Pruner:使用任务无关见解高效修剪潜在扩散模型
通过利用潜在空间进行剪枝过程,LD-Pruner 方法旨在提供用于压缩 LDMs 的有效性评估模型性能的方法,从而减少训练的高计算成本和提高推理速度。
- 基于扩散模型的像素级强化学习:从丰富反馈中进行强化学习
扩展了基于人类反馈训练的静态扩散模型生成算法,提出了基于像素的策略优化算法 (PXPO),通过针对每个像素提供更细致的奖励给模型。
- 通过流形假设的视角解析深度生成模型:一项调查与新连接
深度生成模型与流形假设之间的相互作用引起了人们的广泛关注。本文通过流形视角对 DGM 进行了首次调查,并对其进行了两个新的贡献:首先,形式上证明了高维似然函数的数值不稳定性是无法避免的;其次,发现基于自编码器的 DGM 可以被解释为近似最小 - 潜在扩散模型的缩放特性:更大不一定更好
通过对已建立的文本到图像扩散模型进行经验分析,我们研究了模型规模如何影响不同采样步数下的采样效率,并发现了一个意外的趋势:在给定推理预算的情况下,较小的模型经常在生成高质量结果方面胜过较大的等价物。此外,我们通过应用各种扩散采样器,探索不同 - 潜水印:在潜在扩散空间中注入和检测水印
本文提出了一种在潜在空间中注入和检测水印的解决方案 —— 潜在水印(LW),并采用渐进训练策略。通过实验证明,在注入 64 位消息时,LW 在 9 个单次攻击场景和一个全攻击场景下,可以实现接近 100% 的识别性能和 97% 以上的归属性 - Diff-Def: 条件图集的扩散生成变形场
使用潜在扩散模型生成变形场,将一般人群的解剖图谱转化成代表特定亚人群的解剖图谱,以提高结构合理性和解决直接图像合成过程中的虚构问题。我们的方法通过对比实验,使用来自 UK Biobank 的 5000 个脑部和全身 MR 图像,生成具有平滑 - 潜变扩散模型用于属性保护的图像匿名化
本文介绍了基于潜在扩散模型(LDMs)的图像匿名化的方法,该方法是首次根据 LDMs 进行图像匿名化的方法,实现了身份混淆并更好地保留了原始图像内容。
- 时尚图像编辑的多模态条件化潜扩散模型
该论文探讨了多模态条件下的时尚图像编辑任务,提出了一种基于多模态指导的生成方法,利用时尚设计的文本、人体姿势、服装草图和面料纹理等多模态提示生成以人为中心的时尚图像。实验证明了提出方法在现实感和一致性方面的有效性。
- DreamSampler:融合扩散采样和得分蒸馏的图像编辑方法
通过 DreamSampler 框架,通过对正则化潜在优化的透镜,整合了逆向采样和分数蒸馏两种不同方法,实现了对图像编辑和重建的指导,从而展示了与现有方法相比的竞争性性能和新的应用。
- RangeLDM:快速逼真的 LiDAR 点云生成
通过引入 RangeLDM,我们提出了一种快速生成高质量 LiDAR 点云的新方法,通过深度生成模型、变分自编码器和扩散模型来解决传统方法中的限制,从而在自动驾驶中获得稳健的表现和快速生成速度。
- SCP-Diff: 空间 - 分类联合先验的照片级语义图像合成功能
开发了一种名为 SCP-Diff 的方法来解决语义图像合成中存在的两个主要问题,即大型语义区域内的奇怪子结构和内容与语义掩码的不一致,并在 Cityscapes 和 ADE20K 上取得了卓越成果。
- 视频同步的文本到语音生成
近期,研究人员在文本转语音生成方面的关注度不断增加,本研究提出了一个名为 T2AV-Bench 的创新基准和一个简单而有效的视频对齐文本到音频生成模型 T2AV,通过整合视觉对齐的文本嵌入到生成模型中,通过时间多头注意力转换器从视频数据中提 - OOTDiffusion:基于融合的潜在扩散技术的控制性虚拟试穿
使用 Outfitting over Try-on Diffusion(OOTDiffusion)方法,结合预训练的潜在扩散模型和创新的网络架构,可以有效地生成高质量、逼真且可控的虚拟试穿图像,突破了现有虚拟试穿方法在逼真度和可控性方面的局 - 神经图生成器:使用潜在扩散模型进行特征条件化的图生成
本研究论文介绍了神经图生成器(NGG),它利用条件化的潜态扩散模型进行图生成,具有模型复杂图形模式的显著能力,并能控制图生成过程。NGG 通过图压缩的变分图自动编码器和在潜向量空间中的扩散过程,以图统计概述向量为指导。实验证明 NGG 在各