Nov, 2023

Video2Music: 使用情感多模态 Transformer 模型从视频中生成合适的音乐

TL;DR在本研究中,我们开发了一个名为 Video2Music 的生成音乐 AI 框架,能够根据提供的视频生成配套的音乐。我们的方法通过分析音乐视频获取语义、场景、运动和情感特征,并利用这些特征来指导音乐生成模型。我们还创建了一个称为 MuVi-Sync 的多模态数据集,用于训练新颖的 Affective Multimodal Transformer (AMT) 模型,以生成与视频相匹配的音乐。在实验证明,我们的提出的框架能够生成与视频内容情感相符的音乐,并通过用户研究证实了音乐质量和音乐与视频的匹配质量。我们的提出的 AMT 模型和新数据集 MuVi-Sync 为视频音乐生成任务迈出了有希望的一步。