latent diffusion models | BriefGPT

关键词latent diffusion models

搜索结果 - 106

通过特征空间增强和迭代学习实现长尾图像生成
基于稀疏嵌入和 K-NN 方法，我们提出了一种基于预训练的稳定扩散模型的图像增强方法，以解决图像生成中的数据不平衡问题。
PDF2 months ago
FashionSD-X: 多模态时尚服装合成基于潜在扩散
这篇研究论文介绍了一种新颖的生成性流程，通过使用潜在扩散模型改变了时尚设计过程，利用 ControlNet 和 LoRA 微调生成高质量图像，从文本和草图等多模态输入生成。我们结合草图数据，对包括 Multimodal Dress Code
PDF2 months ago
CVPR微妙的图像扰动对定制扩散模型造成更高影响
通过观察到交叉注意力层对梯度变化更加敏感，我们提出了一种简单但通用且高效的方法 CAAT，用于有效地欺骗潜在扩散模型 (LDMs)。我们展示了对图像的微小扰动可以显著影响交叉注意力层，从而在定制扩散模型的微调过程中改变文本与图像之间的映射关
PDF2 months ago
适应动作的潜在扩散模型用于视频帧插值
通过结合运动估计和目标插帧帧之间的运动先验，提出了一种新的扩散框架（MADiff），该方法在生成视觉平滑和逼真结果方面显著优于现有方法。
PDF3 months ago
CVPRDISC: 基于分离条件的前列腺癌分级中自陶醉的潜在扩散模型
使用潜在扩散模型（LDMs）生成高质量的图像，以改善组织病理学图像的肿瘤分级模型训练。通过训练特定的 LDMs，利用输入图像上的像素级注释生成包含多个 Gleason Grades（GGs）的合成图像块，并有效利用合成图像块来提升现有模型的
PDF3 months ago
F2FLDM：基于组织病理学预训练嵌入的潜在扩散模型，用于非配对冷冻切片向 FFPE 转换
我们引入了一种新方法，结合了潜在扩散模型和组织病理预训练嵌入，以增强冰冻切片图像的恢复。通过扩散和去噪技术，我们的方法不仅保留了颜色染色和组织形态等关键诊断特征，还提出了一种嵌入转换机制来更好地预测目标组织病理切片的表示。结果表明，该方法显
PDF3 months ago
CVPRLD-Pruner：使用任务无关见解高效修剪潜在扩散模型
通过利用潜在空间进行剪枝过程，LD-Pruner 方法旨在提供用于压缩 LDMs 的有效性评估模型性能的方法，从而减少训练的高计算成本和提高推理速度。
PDF3 months ago
基于扩散模型的像素级强化学习：从丰富反馈中进行强化学习
扩展了基于人类反馈训练的静态扩散模型生成算法，提出了基于像素的策略优化算法 (PXPO)，通过针对每个像素提供更细致的奖励给模型。
PDF3 months ago
通过流形假设的视角解析深度生成模型：一项调查与新连接
深度生成模型与流形假设之间的相互作用引起了人们的广泛关注。本文通过流形视角对 DGM 进行了首次调查，并对其进行了两个新的贡献：首先，形式上证明了高维似然函数的数值不稳定性是无法避免的；其次，发现基于自编码器的 DGM 可以被解释为近似最小
PDF3 months ago
潜在扩散模型的缩放特性：更大不一定更好
通过对已建立的文本到图像扩散模型进行经验分析，我们研究了模型规模如何影响不同采样步数下的采样效率，并发现了一个意外的趋势：在给定推理预算的情况下，较小的模型经常在生成高质量结果方面胜过较大的等价物。此外，我们通过应用各种扩散采样器，探索不同
PDF3 months ago
潜水印：在潜在扩散空间中注入和检测水印
本文提出了一种在潜在空间中注入和检测水印的解决方案 —— 潜在水印（LW），并采用渐进训练策略。通过实验证明，在注入 64 位消息时，LW 在 9 个单次攻击场景和一个全攻击场景下，可以实现接近 100% 的识别性能和 97% 以上的归属性
PDF3 months ago
Diff-Def: 条件图集的扩散生成变形场
使用潜在扩散模型生成变形场，将一般人群的解剖图谱转化成代表特定亚人群的解剖图谱，以提高结构合理性和解决直接图像合成过程中的虚构问题。我们的方法通过对比实验，使用来自 UK Biobank 的 5000 个脑部和全身 MR 图像，生成具有平滑
PDF3 months ago
潜变扩散模型用于属性保护的图像匿名化
本文介绍了基于潜在扩散模型（LDMs）的图像匿名化的方法，该方法是首次根据 LDMs 进行图像匿名化的方法，实现了身份混淆并更好地保留了原始图像内容。
PDF4 months ago
时尚图像编辑的多模态条件化潜扩散模型
该论文探讨了多模态条件下的时尚图像编辑任务，提出了一种基于多模态指导的生成方法，利用时尚设计的文本、人体姿势、服装草图和面料纹理等多模态提示生成以人为中心的时尚图像。实验证明了提出方法在现实感和一致性方面的有效性。
PDF4 months ago
DreamSampler：融合扩散采样和得分蒸馏的图像编辑方法
通过 DreamSampler 框架，通过对正则化潜在优化的透镜，整合了逆向采样和分数蒸馏两种不同方法，实现了对图像编辑和重建的指导，从而展示了与现有方法相比的竞争性性能和新的应用。
PDF4 months ago
RangeLDM：快速逼真的 LiDAR 点云生成
通过引入 RangeLDM，我们提出了一种快速生成高质量 LiDAR 点云的新方法，通过深度生成模型、变分自编码器和扩散模型来解决传统方法中的限制，从而在自动驾驶中获得稳健的表现和快速生成速度。
PDF4 months ago
SCP-Diff: 空间 - 分类联合先验的照片级语义图像合成功能
开发了一种名为 SCP-Diff 的方法来解决语义图像合成中存在的两个主要问题，即大型语义区域内的奇怪子结构和内容与语义掩码的不一致，并在 Cityscapes 和 ADE20K 上取得了卓越成果。
PDF4 months ago
视频同步的文本到语音生成
近期，研究人员在文本转语音生成方面的关注度不断增加，本研究提出了一个名为 T2AV-Bench 的创新基准和一个简单而有效的视频对齐文本到音频生成模型 T2AV，通过整合视觉对齐的文本嵌入到生成模型中，通过时间多头注意力转换器从视频数据中提
PDF4 months ago
OOTDiffusion：基于融合的潜在扩散技术的控制性虚拟试穿
使用 Outfitting over Try-on Diffusion（OOTDiffusion）方法，结合预训练的潜在扩散模型和创新的网络架构，可以有效地生成高质量、逼真且可控的虚拟试穿图像，突破了现有虚拟试穿方法在逼真度和可控性方面的局
PDF4 months ago
神经图生成器：使用潜在扩散模型进行特征条件化的图生成
本研究论文介绍了神经图生成器（NGG），它利用条件化的潜态扩散模型进行图生成，具有模型复杂图形模式的显著能力，并能控制图生成过程。NGG 通过图压缩的变分图自动编码器和在潜向量空间中的扩散过程，以图统计概述向量为指导。实验证明 NGG 在各
PDF4 months ago