Sep, 2024

一个简单而强大的声音视频生成基线:音频和视频扩散模型的有效适应以进行联合生成

TL;DR本研究针对声音视频生成领域中的现有方法不足进行了探讨。我们提出了一种集成音频和视频扩散模型的新方法,通过引入时间步调整和位置编码的跨模态条件设计(CMC-PE)机制,显著提升了音视频配对的对齐效果。实验结果表明,该方法在生成质量上优于现有技术,具有良好的应用潜力。