BriefGPT.xyz
Ask
alpha
关键词
multi-modal diffusion model
搜索结果 - 2
CMMD:视频 - 音频条件建模的对比多模态扩散
我们介绍了一种多模态扩散模型,专为视频和音频的双向条件生成而设计。通过引入联合对比训练损失来增强视听事件的同步,我们认识到在多模态生成任务中准确对齐视频和音频事件的重要性。我们的研究方法包括对多个数据集进行全面实验,以全面评估我们所提出的模
→
PDF
7 months ago
CVPR
MM-Diffusion:学习多模态扩散模型用于联合音频和视频生成
本文介绍了一种基于 Multi-Modal Diffusion 模型,利用两个耦合的自编码器进行序列多模态非线性去噪,提出了一种随机平移注意力块用于跨模态对齐,以实现音视频帧的生成并提高音视频质量
PDF
2 years ago
Prev
Next