本文提出了一种名为 Collaborative Diffusion 的模型,在不需要重新训练的情况下,利用多种单一模态扩展固有的单一模态扩散模型以实现多模态人脸生成和编辑。
Apr, 2023
利用最新的扩散模型生成创意艺术,通过将文本文档与粗略草图作为辅助信息进行模型训练,取得了令人满意的实验结果。
Jul, 2023
我们提出了一种新颖而通用的上下文扩散模型 (ContextDiff),通过将文本条件与视觉样本之间的交互和对齐引入前向和后向过程中,将上下文传播到这两个过程的所有时间步,从而促进跨模态条件建模,在文本到图像生成和文本到视频编辑的两个挑战性任务中,我们的 ContextDiff 实现了新的最先进性能,通过定量和定性评估明显增强了文本条件与生成样本之间的语义对齐。
Feb, 2024
本文提出了一个名为互信息指导扩散的跨模态数据翻译模型(MIDiffusion)来解决零样本学习交叉模态数据翻译的基本挑战,该方法不需要基于源与目标领域的直接映射,且在实践中应用跨模态数据翻译方法具有优势。
Jan, 2023
扩散模型为一种强大的生成模型,能够从纯噪声中生成高质量的图像。条件扩散模型通过简单的文本提示能够指定所需图像的内容,然而,仅仅基于文本提示无法对最终图像的构成和布局进行细致的控制,而这取决于初始噪声分布。本文探讨了两种改进方法,并演示了当这两种方法结合使用时可以获得更好的性能。
May, 2024
本文研究了使用扩散模型生成图片以满足多种限制条件的问题。我们提出了一种基于去噪扩散概率模型的解决方案,该方法能够统一多个扩散模型,并引入一种新的可靠性参数,使得可以在采样时仅使用不同数据集上训练的现成模型来指导并满足多种限制条件的任务。该方法在多种标准的多模态任务上表现出了有效性。
Dec, 2022
通过提高输入与输出的互信息,利用条件离散对比扩散 (CDCD) 损失和两种对比扩散机制,将对比学习和传统变分目标相结合,我们成功地提高了多模式条件综合生成模型的输入输出对应性并取得了良好的结果。
Jun, 2022
通过设计一种多模态文本到图像扩散模型(DiffBlender),可以同时引入多种不同类型的细节表达方式,如草图、盒子和风格嵌入等,不需要更改现有模型的参数,从而在单个模型中实现条件生成,并且通过量化和定性比较,将多模态生成的标准提高到了新的水平。
May, 2023
本研究通过利用深度生成对抗训练解决了跨模态音频 - 视觉生成的问题,使用条件生成对抗网络实现了音乐表演的跨模态音频 - 视觉生成,并探索了音频和视觉信号的不同编码方法以及基于乐器和姿势的生成情景,并且进行了分类和人工评估实验,证明了该模型可以在很大程度上从一个模态(音频 / 视觉)生成另一个模态(视觉 / 音频),并提供了未来研究所需的数据集和设计选项。
Apr, 2017
介绍了一种基于确定性自编码器和遮蔽扩散模型的多模态生成模型,结果优于现有竞争对手的生成质量和一致性。
Jun, 2023