Oct, 2024

多模态潜在扩散模型用于声音视频生成

TL;DR本研究针对声音视频生成任务中高维信号空间、不同数据格式及内容信息模式的挑战,提出了一种新颖的多模态潜在扩散模型(MM-LDM)。通过统一音频和视频数据表示,并构建低级知觉潜在空间和共享高级语义特征空间,我们的方法在多个评估指标上实现了新的最先进结果,显著提升了质量和效率。