- 自动樱桃挑选者:从语言驱动的高质量生成数据中学习
通过使用扩增感知和多模态训练的高质量多模态训练样例,Auto Cherry-Picker(ACP)框架能够生成高质量的图像布局并改善现有模型性能,其中使用了扩散模型、语言模型、评价指标等关键技术。
- DaLPSR:针对现实世界图像超分辨率的损失对齐语言提示
本研究提出了利用退化对齐的语言提示来实现准确、精细和高保真度的图像恢复,通过图像恢复提示对图像的退化程度进行自动辨别,同时结合预训练的多模态大型语言模型获取与人类感知紧密相关的高级语义先验,综合比较分析表明,该方法在图像感知质量上达到了新的 - 强化学习的扩散谱表示
扩展现有方法以适用于更广泛的现实世界应用的关键挑战在于推理时间的计算成本,我们提出了一种利用扩散模型在表示学习视角下的灵活性的 Diff-SR 方法,该方法能够从马尔可夫决策过程(MDP)和部分可观察马尔可夫决策过程(POMDP)中提取足够 - CollaFuse: 协同扩散模型
通过分布式协作扩散模型,我们提出了一种新的方法,在感知图像的同时减轻了客户端的计算负担,从而实现协作训练和数据隐私的增强。
- 表格数据生成模型的内在机制:超参数调优的强大影响
通过在 16 个数据集上进行全面评估,我们研究了数据集特定的超参数、特征编码和架构调整对于五个最新模型家族在表格数据生成方面的影响。我们提出了一个减少的搜索空间以便进行快速优化,实现了几乎相同性能但显著降低成本。我们的评估表明,对于大多数模 - 使用联邦学习训练扩散模型
我们提出了一种联合扩散模型方案,可以在不暴露本地数据的情况下独立和协作地训练扩散模型。通过对底层 UNet 骨干网的新颖利用,我们实现了在训练过程中参数交换数量的显著降低,最多可达 74%,而同时仍能保持与中心化设置相当的图像质量,依据 F - 扩散在图像超分辨率中超越 GAN 吗?
在控制条件下,比较了基于扩散和基于 GAN 的超分辨率模型的性能,结果显示 GAN 模型可以达到与 Diffusion 模型相媲美的效果。此外,还研究了文本条件和增强对 ISR 模型性能的影响,展示了它们对多个下游任务的效果。
- 演化叙事:新角色定制的基准和方法与扩散模型
EpicEvo 通过引入新的角色来适应性生成新故事,并将这些角色无缝地融入已有的人物动态中,使用了改良的文本数据集和一种具有对抗角色对齐模块的扩散式视觉故事生成模型,通过定量评估和定性研究证明了其在 Diffusion 模型中定制化视觉故事 - 多尺度扩散频域精化超分辨率
提出了一种新颖的基于频域引导的多尺度扩散模型(FDDiff),该模型通过细化的步骤将高频信息的补充过程分解为更精细的步骤,使用小波包频域链提供多尺度的中间目标,以逐步补充缺失的高频细节,并利用多尺度频率细化网络在一个统一的网络中预测所需的多 - Tango 2:通过直接偏好优化对齐基于扩散的文本到音频生成
研究使用 diffusion-DPO(直接偏好优化)损失在偏好数据集上对 Tango 文本到音频模型进行微调,以改进音频生成性能,并且在自动和手动评估指标上显示出优于 Tango 和 AudioLDM2 的效果。
- InstantStyle:文本到图像生成中面向保留风格的免费午餐
Tuning-free diffusion-based models have achieved promising results in image personalization and customization, but still - 图神经聚合 - 扩散与亚稳态
基于微分方程的连续图神经模型拓展了图神经网络的架构,通过聚合 - 扩散方程启发的 GRADE 模型在非线性扩散和聚合之间找到了一种微妙的平衡,通过产生亚稳态节点表示聚集成多个聚类,从而缓解了过度平滑的问题,该模型达到了竞争性的性能,证明了其 - 通过扩散过程改进敌对能量模型
通过将能量式模型(EBMs)嵌入到去噪步骤中,将长时间生成的过程分解为几个较小步骤,采用对称的 Jeffrey 散度和引入变分后验分布进行生成器的训练,以解决对抗性 EBMs 存在的主要挑战,实验证明与现有的对抗性 EBMs 相比,在生成方 - CollaFuse:协作生成人工智能中有限资源和隐私的导航
通过将数据和计算过程分布在本地客户端和共享服务器上,CollaFuse 框架在保持数据私密性的同时,提供高效和协作的 denoising diffusion probabilistic models 的训练和推断,解决了分布式机器学习中的计 - DreamTuner:主题驱动生成仅需一张图片
DreamTurner 是一种新方法,通过将粗略主题特征逐渐注入到细节中,有效地实现主题驱动的图像生成,其中引入了主题编码器以保留粗略主题特征并使用自主题注意力层来提炼目标主题的细节特征。
- RAVE:基于扩散模型的快速一致视频编辑的随机噪声重排
通过引入 RAVE 方法,我们在视频编辑领域取得了显著成果,能够利用预训练的文本到图像扩散模型进行零样本视频编辑,生成高质量视频并保持原始运动和语义结构。RAVE 采用了一种新颖的噪声重排策略,在帧之间的时空交互中产生了时间上的一致性视频, - WarpDiffusion:高保真虚拟试衣的高效扩散模型
通过引入新颖的信息感知和局部服装特征注意机制,WarpDiffusion 将基于变形和基于扩散的范式相结合,实现了高效和高保真度的虚拟试衣,从而提升了现有 VITON 方法的综合质量。
- 内存触发器:通过词级重复揭示文本到图像生成模型中的记忆化
该研究聚焦于扩散模型中两种不同而未被充分研究的重复现象,即在扩散模型中的冗余复制,通过两个案例研究探讨了这些现象及其影响,旨在对生成模型在各种应用中进行更安全、更负责任的使用做出贡献。
- 自我发现可解释的扩散潜在方向用于负责任的文本到图像生成
通过自监督方法找到可解释的潜在方向,提出了一种简单的方法来缓解不合适的图像生成。进行了广泛实验证明了缓解方法的有效性,特别是对于公平生成、安全生成和负责任的文本增强生成。
- 定制的生成流模型求解器
介绍了一种新的框架 ——“定制 ODE 求解器”,用于构建针对预训练流模型的自定义 ODE 求解器,优化了顺序一致和参数高效的求解器,并在逼近质量和生成质量方面与专用求解器相比显著提高。