探索一种基于扩散模型的跨模态生成方法,通过多模态扩散模型的训练和采样方案使用逐通道图像条件学习跨模态相关性,实现数据生成和多种模态的条件生成。
May, 2023
本文提出了一种名为 Collaborative Diffusion 的模型,在不需要重新训练的情况下,利用多种单一模态扩展固有的单一模态扩散模型以实现多模态人脸生成和编辑。
Apr, 2023
通过设计一种多模态文本到图像扩散模型(DiffBlender),可以同时引入多种不同类型的细节表达方式,如草图、盒子和风格嵌入等,不需要更改现有模型的参数,从而在单个模型中实现条件生成,并且通过量化和定性比较,将多模态生成的标准提高到了新的水平。
本研究提出了 Diffusion Co-Speech Gesture(DiffGesture)框架,该框架可有效捕捉跨模态的音频到手势关联并保持时间上的一致性, 通过弥散模型的设计思路, DiffGesture 可以在质量和多样性之间进行平衡,实现了高保真的音频驱动共话手势生成。
Mar, 2023
通过利用预训练的单模态音频和视频生成模型,我们旨在构建一个计算成本最小化的音频 - 视频生成模型。为了实现这一目标,我们提出了一种新方法,通过引导每个单模态模型来协作生成跨模态对齐的样本。我们在几个基准数据集上的实证评估表明,我们的方法改进了单模态的准确度和多模态的对齐,同时具有相对较少的参数。
May, 2024
本文研究了使用扩散模型生成图片以满足多种限制条件的问题。我们提出了一种基于去噪扩散概率模型的解决方案,该方法能够统一多个扩散模型,并引入一种新的可靠性参数,使得可以在采样时仅使用不同数据集上训练的现成模型来指导并满足多种限制条件的任务。该方法在多种标准的多模态任务上表现出了有效性。
Dec, 2022
本文介绍了一种基于 Multi-Modal Diffusion 模型,利用两个耦合的自编码器进行序列多模态非线性去噪,提出了一种随机平移注意力块用于跨模态对齐,以实现音视频帧的生成并提高音视频质量
通过提高输入与输出的互信息,利用条件离散对比扩散 (CDCD) 损失和两种对比扩散机制,将对比学习和传统变分目标相结合,我们成功地提高了多模式条件综合生成模型的输入输出对应性并取得了良好的结果。
Jun, 2022
本研究通过提出扩展图像扩散结构的扩散模型,使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频,并引入一种更好的有条件采样技术,得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。
Apr, 2022
我们提出了一种能够在大规模图像扩散模型中实现音频条件的方法,通过将从音频剪辑中获取的特征映射到可以注入扩散模型的令牌中,引入了额外的音频 - 图像交叉注意力层,可以与扩散编辑方法相结合进行音频条件的图像编辑。