可控音乐变换器生成视频背景音乐
在本研究中,我们开发了一个名为 Video2Music 的生成音乐 AI 框架,能够根据提供的视频生成配套的音乐。我们的方法通过分析音乐视频获取语义、场景、运动和情感特征,并利用这些特征来指导音乐生成模型。我们还创建了一个称为 MuVi-Sync 的多模态数据集,用于训练新颖的 Affective Multimodal Transformer (AMT) 模型,以生成与视频相匹配的音乐。在实验证明,我们的提出的框架能够生成与视频内容情感相符的音乐,并通过用户研究证实了音乐质量和音乐与视频的匹配质量。我们的提出的 AMT 模型和新数据集 MuVi-Sync 为视频音乐生成任务迈出了有希望的一步。
Nov, 2023
本文通过提出高质量的音乐视频数据集 BGM909 并进行详细注释和镜头检测,使用检索精确度度量标准来评估音乐质量,提出了 Diff-BGM 框架,以自动为给定的视频生成背景音乐,并引入片段感知交叉注意力层进行视频和音乐的顺序对齐,实验证明了我们提出方法的有效性。
May, 2024
本文介绍了 MusicGen 这个单一语言模型,能够生成高质量的音乐样本,实现对文本描述或旋律特征的有条件创作,并经过广泛的实证评估,表明其在标准的文本到音乐基准上优于其他模型。
Jun, 2023
利用多模态特征空间中的文本和音频嵌入指导生成模型的生成图像,进一步实现音乐视频创作,我们提出的方法需要对视频进行自动分段,同时保持时间上的一致性,与以前的方法不同,我们的方法融合了文本和音频两个模态,展示了良好的应用效果
Jan, 2022
本文提出了一种基于 Transformer 架构的多音轨音乐生成系统 Multi-Track Music Machine(MMM),通过对音乐材料的表示和注意力机制的利用,可以实现多音轨的音乐生成,并提供音轨级别和小节级别的插入、音轨内乐器和音符密度控制等功能。
Aug, 2020
我们介绍了 Coco-Mulla,这是一种用于音乐大型语言模型的基于内容的控制方法,通过参数高效的微调方法进行训练,在使用少于 300 首歌曲的小数据集进行调整时,相比于原始模型,使用了不到 4% 的参数。我们的方法实现了高质量的音乐生成,并通过和文本描述结合,展示了灵活的音乐变体生成和风格转换。
Oct, 2023
我们提出了一种可控的歌词到旋律生成网络,能够以用户期望的音乐风格从歌词中生成逼真的旋律,通过验证各项指标,初始控制生成的旋律的研究表明具有更好的生成质量和与用户的互动性。
Jun, 2023
本文介绍了 MusicFrameworks,这是一种基于深度学习的分层音乐结构表示方法;并提出了一种多步骤的生成过程,根据长期重复结构、和弦、旋律轮廓和节奏约束生成完整的旋律。研究结果表明,其中一半的旋律比起 POP909 数据集中由人类作曲家创作的音乐更好或同样好。
Sep, 2021
通过构建一种文本到音乐模型,并利用分布式扩散模型和音频广义线性模型来进行训练以生成新音乐,解决了音乐生成过程中的数据不足、版权和抄袭等问题。同时通过节拍跟踪和两种不同的数据增强策略,即拍子同步音频混合和拍子同步潜在混合,实现对训练数据的重组,从而生成多样化且保持风格一致的音乐。最终,通过基于对比语音 - 音频预训练模型的评估指标,进一步证明了所提出的音乐生成模型和拍子同步混合策略能够提高生成音乐的质量、创新性和与输入文本的对应关系。
Aug, 2023