Jun, 2024

VidMuse: 一个简单的长短期建模视频音乐生成框架

TL;DR本文系统研究了仅基于视频生成音乐的方法,并提出了一个大规模数据集和一个名为 VidMuse 的简单框架,该框架通过在局部和全局可视线索的引导下,使用长短期模型创建与视频内容一致的音频轨迹,实现了高保真度的音乐生成及其与视频的音视一致性对齐。通过广泛的实验证明,VidMuse 在音频质量、多样性和音视对齐方面优于现有模型。