BriefGPT.xyz
Ask
alpha
关键词
unconditional audio-video generation
搜索结果 - 1
CVPR
MM-Diffusion:学习多模态扩散模型用于联合音频和视频生成
本文介绍了一种基于 Multi-Modal Diffusion 模型,利用两个耦合的自编码器进行序列多模态非线性去噪,提出了一种随机平移注意力块用于跨模态对齐,以实现音视频帧的生成并提高音视频质量
PDF
2 years ago
Prev
Next