- CVPR基于主成分聚类的合成数据生成中的语义分割
使用潜在扩散模型生成合成数据集的方法,通过自我关注来实现基于头部信息的语义信息提取,从稳定扩散潜变量中直接获取类别无关的图像分割,并利用文本到像素的交叉关注进行先前生成掩膜的分类,最后通过仅使用稳定扩散输出图像进行掩膜精化步骤的提出。
- CT 到 MRI 转换的软遮罩曼巴扩散模型
本研究旨在使用潜在扩散模型(Latent Diffusion Model)对 CT 进行 MRI 转换,并将常用的 U-Net 或 Transformer 骨干换成一种名为 Mamba 的状态空间模型。实验证明 DiffMa 在医学图像生成 - 基于子组分布对齐调整的公平文本到医学图像扩散模型
通过针对敏感子组分布概率的分类概率间的匹配,使用预训练的 Imagetextencoder 作为 T2MedI 模型的文本编码器并利用 Radiology Objects in COntext(ROCO)数据集进行微调,为性别偏见进行定量和 - 相似度感知综合潜在扩散模型用于医学图像转换与表示学习
我们提出了一种基于潜在扩散模型的综合生成模型(S$^2$LDM),该模型可以在推断过程中实现高保真度重建,优化了不同模态图像之间的相似性,并在对比增强区域生成更多细节的医学图像。
- AI 能够实现动态降尺度吗?训练一种潜在扩散模型以模仿 COSMO-CLM 的 km 级的 ERA5 降尺度在意大利上
我们通过 Latent Diffusion Model (LDM) 将 ERA5 数据向下扩展到 2 km 的分辨率,目标是证明生成建模的最新进展使得基于深度学习的模型可以提供与数值动力降尺度模型相媲美的结果,给定相同的输入数据(即 ERA - 用潜在扩散模型在几秒钟内对 3D 高斯场景进行采样
我们提出了一个通过 2D 图像数据训练的 3D 场景潜在扩散模型,首先设计了一个将多视图图像映射到 3D 高斯斑点并在同时构建这些斑点的压缩潜在表示的自编码器,然后在潜在空间上培训多视图扩散模型,以学习一种高效的生成模型。该方法不需要对象掩 - 地理差异在文本到图像模型中的分解评估
地理差异图像生成任务中的 Decomposed-DIG 指标通过量化对象和背景的差异,揭示了生成图像中地理上的差异。研究发现背景生成中的地理差异明显大于对象生成,并提出了一种新的提示结构以优化背景多样性。
- 考虑语义模糊性和信道噪声的实时语义沟通的潜在扩散模型
该研究基于潜在扩散模型构建了一种语义交流系统,并通过三项改进,即异常值鲁棒编码器、轻量级单层潜在空间转换适配器和端到端一致性精炼策略,证明了该系统对异常值的稳健性、在未知分布数据传输中的适应能力以及保持高人类感知质量的实时信道去噪任务能力, - LDM-RSIC: 探索远程感知图像压缩中的畸变先验与潜在扩散模型
通过利用潜在扩散模型的失真先验信息,提出了一种基于深度学习的遥感图像压缩方法,该方法利用生成的先验信息,通过增强网络实现对图像的质量提升。
- 用于快速模拟 CERN 粒子碰撞的生成扩散模型
利用扩散模型,我们首次使用模拟方法对 ALICE 实验中的 Zero Degree Calorimeter(ZDC)进行了模拟,与现有基线相比实现了最高保真度,结果表明潜在扩散模型具有快速生成时间的显著潜力。
- 基于图形的服装变形与导向反转的 Virtual-tryon
通过引入一种新颖的基于图的变形技术、利用潜在扩散模型进行虚拟试衣和考虑纹理保护以及整体逼真度的遮挡感知变形约束等方法,我们在 VITON-HD 和 Dresscode 数据集上验证了我们的方法,在服装变形、纹理保留和整体逼真度方面取得了显著 - 稀疏观测下的分层化角色生成
从 AR / VR 设备中估计 3D 全身化身对于创建 AR / VR 应用程序中的沉浸式体验至关重要。本文提出了一种分层方法,将传统的全身化身重建流程解耦为两个阶段,首先重建上半身,然后在先前阶段的基础上重建下半身。通过潜在扩散模型作为强 - 逆转听觉处理路径:基于 fMRI 的由粗到细的音频重建
基于人类听觉系统的层次化处理,从低级声学特征到高级语义理解的转变,我们引入了一种新的粗到细的音频重建方法。利用非侵入式功能性磁共振成像(fMRI)数据,我们的方法模拟了听觉处理的逆向路径。通过初始使用 CLAP 将 fMRI 数据粗略解码到 - LDMol:基于文本条件的分子扩散模型,利用化学信息的潜在空间
LDMol 是一种新颖的潜在扩散模型,能够实现自然语言条件下的分子生成,并通过对比学习策略来提取化学信息特征空间,不仅在文本到分子生成基准测试中超过现有基准,还能进行零样本推理和相关任务如分子到文本检索和以文本为驱动的分子编辑,展示了它作为 - 面向语言的图像传输的语义潜空间表示
基于语言的语义通信框架通过语言 - 图像编码和图像 - 语言解码,以及潜在扩散模型,实现了在嘈杂通信渠道中以较高的感知相似度重建预期图像的能力。
- Dual3D: 双模多视角潜在扩散下高效一致的文本到 3D 生成
我们提出了 Dual3D,一种新颖的文本到 3D 生成框架,仅需 1 分钟从文本生成高质量的 3D 资产。其中关键组件是双模态多视图潜在扩散模型,通过单个潜在去噪网络可以有效去噪多视图潜在,在 3D 模式下可以生成一致渲染的三面神经表面实现 - 潜在着色:基于潜在扩散的说话人视频着色
通过利用经过优化的潜在扩散模型的强大能力以及具备时间一致性机制,我们可以改善自动视频上色的性能,解决时间不一致性的挑战。
- Matten: 基于 Mamba-Attention 的视频生成
本文介绍了一种名为 Matten 的先进的潜在扩散模型,采用 Mamba-Attention 架构用于视频生成。Matten 以最小的计算成本,通过空间 - 时间注意力对本地视频内容建模,并通过双向 Mamba 对全局视频内容进行建模。我们 - IJCAIFLDM-VTON:用于虚拟试衣的忠实潜在扩散模型
虽然虚拟试衣(VTON)基于潜在扩散模型的生成性能令人印象深刻,但缺乏对衣物关键细节(如风格、图案和文字)的忠实性。为了缓解由扩散随机性和潜在监督引起的这些问题,我们提出了一种新颖的面向 VTON 的忠实潜在扩散模型,称为 FLDM-VTO - 像素是一道屏障:扩散模型比我们认为的更具对抗性的鲁棒性
通过对扩散模型中的对抗性示例进行研究,我们发现扩散模型在像素空间中对抗性示例 (即 PDMs) 具有较强的鲁棒性,并可用作有效去除对 LDMs 生成的对抗性模式的净化器,使得现有的多种保护方法在一定程度上无法有效保护我们的图像。