- DiffAM:基于扩散的面部隐私保护对抗妆容转换
利用扩散模型生成对抗性妆容转移以保护人脸图像隐私的研究
- MediSyn: 用于广泛医学 2D 和 3D 图像合成的文本引导扩散模型
通过生成逼真且多样化的医学 2D 和 3D 图像,基于指令的文本导向潜在扩散模型 MediSyn 为算法的训练和研究提供了一个丰富且尊重隐私的资源,并通过已建立的指标展示了在医学图像和视频综合中以文本提示为导向的显著改进。
- CTS: 基于一致性的医学图像分割模型
应用一致性模型于医学图像分割任务,设计多尺度特征信号监督模式和损失函数引导以实现模型收敛。实验证明,在测试阶段单次采样下,CTS 模型能够取得更好的医学图像分割结果。
- PeRFlow:分段修正流作为通用即插即用加速器
基于分段线性流的 Piecewise Rectified Flow (PeRFlow) 方法通过将采样过程分为多个时间窗口并在每个时间间隔内通过 reflow 操作直线化轨迹的方式加速扩散模型,取得了优越性能,在少量步骤的生成方面表现出色。 - 扩散模型中的 SAR 图像合成
通过使用特定类型的扩散模型(DDPM)在合成孔径雷达(SAR)领域实现有条件和无条件图像生成,本研究表明 DDPM 在质量上以及定性和定量效果上都优于现有的基于 GAN 的方法,并展示了预训练对于提高 SAR 图像生成质量的益处。
- 可组合的基于部件的操作
本论文提出了一种名为可组合的基于部件的操纵(CPM)的新方法,通过利用物体部件分解和部件间对应关系,以提高机器人操纵技能的学习和概括能力。通过考虑物体部件之间的功能对应关系,我们将功能性动作(如倾倒和约束放置)概念化为不同对应约束的组合。C - 个性化内容合成的扩散模型调查
近年来生成模型的发展对内容创作产生了重大影响,引发了个性化内容合成(PCS)的出现。本文以扩散模型为重点,全面调研 PCS,并介绍了 PCS 研究的通用框架,即基于优化和基于学习的方法。文中进一步分析这些方法的分类及技术,并讨论了其优势、局 - 稳定 MoFusion:面向稳健高效的基于扩散的运动生成框架
通过对网络架构、训练策略和推理过程的深入分析,我们根据研究结果为高质量的人体运动生成定制了每个组件,最终提出了稳定的人体运动生成框架 StableMoFusion,并通过大量实验证明其在与当前最先进方法的比较中表现出色。
- 文本到图像扩散模型中的记忆化分析实践
对文本引导的图像生成模型进行了记忆化分析,提出三个必要条件进行定量分析,并利用反演技术验证目标图像的安全性,同时对稳定扩散模型进行了有效性实验证明。
- DP-MDM:通过多个扩散模型实现细节保留的磁共振重建
通过使用多种扩散模型提取 k 空间域中的结构和细节特征,利用虚拟二进制模态掩码和倒金字塔结构来增强 MRI 重建质量,方法通过逐步细化逼近细节并采用级联训练数据分布来表示多尺度数据,从而有效地捕捉和呈现高分辨率的 MRI 图像。
- ICML变分薛定谔扩散模型
提出了变分薛定谔扩散模型 (VSDM),利用变分推理线性化薛定谔桥前向评分函数,实现了无需模拟的训练过程,可用于优化传输计划中的扩散模型。VSDM 在模拟实验中表现出对非各向异性形状的高效生成能力,并产生了相较于单变量扩散更直线的样本轨迹。 - FlexEControl: 文本到图像生成的灵活高效多模控制
提出了一种新颖的灵活高效的可控文本到图像生成方法 FlexEControl,其核心是一种独特的权重分解策略,能够有效地整合不同类型的输入,提高了生成图像与控制之间的准确性,同时显著降低了与多模态条件相关的计算开销。相比 Uni-Contro - CVPR基于注意力机制的训练无关扩散模型效率增强
Attention-driven Training-free Efficient Diffusion Model (AT-EDM) framework leverages attention maps for runtime pruning - 想象 Flash:使用向后蒸馏加速鸵鸟扩散模型
通过反向蒸馏、动态适应的位移重构损失和噪声修正技术,我们提出了一种新的蒸馏框架,用于实现高保真度、多样化的样本生成,仅使用一到三个步骤即可。通过大量实验证明,我们的方法在定量指标和人工评估中优于现有竞争对手,仅仅使用三个降噪步骤即可达到与教 - 简单的 LoRA 调整在注意力层上将改进您的扩散模型
将 LoRA 调节应用于注意力层而不改变 U-Net 结构的其他部分,提高了图像生成质量。
- CVPR基于扩散驱动的 GAN 反向传递用于多模态人脸图像生成
我们提出了一种新的多模态人脸图像生成方法,通过将文本提示和视觉输入转化为逼真的人脸图像,结合了生成对抗网络和扩散模型的优势,并通过简单映射和风格调节网络将两个模型结合起来,将特征图和注意力图中的有意义的表示转化为潜空间编码。使用预训练的生成 - Inf-DiT: 用内存高效的扩散变换方法上采样任意分辨率图像
通过引入单向注意力机制和 DiT 结构,我们提出了一种自适应调整推理过程中的内存负荷和处理全局依赖性的无限超分模型,实验结果表明,在生成超高分辨率图像方面,我们的模型在机器和人类评估方面都达到了最先进的性能。与常用的 UNet 结构相比,在 - BUDDy: 单通道盲无监督除混响实现弥散模型
该论文提出了一种基于扩散模型的无监督单声道方法,用于联合盲去混响和房间脉冲响应估计。在各个频率子带上使用带指数衰减的滤波器对混响运算符进行参数化,并沿反向扩散轨迹迭代估计相应的参数。通过测量一致性准则强化生成语音与混响测量的真实性,同时无条 - MoDiPO: 通过 AI 反馈驱动的直接偏好优化实现文本到动作对齐
通过使用 MoDiPO(运动扩散 DPO)方法,该研究提出了一种新的方法,通过使用直接优化偏好来对齐文本到运动模型,以便生成更加真实的动作。
- 深度 MpMRI:张量分解正则化学习在快速高保真多参数显微结构磁共振成像中的应用
提出了 DeepMpMRI,用于从不同扩散模型中使用稀疏采样的 q 空间数据快速高保真地估计多参数;实验证实了该方法在同时定量和定性地估计多参数映射方面相对于 5 种最先进方法的优越性和 4.5-22.5 倍加速