Video2Music: 使用情感多模态 Transformer 模型从视频中生成合适的音乐

Nov, 2023

Video2Music: 使用情感多模态 Transformer 模型从视频中生成合适的音乐

Video2Music: Suitable Music Generation from Videos using an Affective Multimodal Transformer model

Jaeyong Kang, Soujanya Poria, Dorien Herremans

TL;DR在本研究中，我们开发了一个名为 Video2Music 的生成音乐 AI 框架，能够根据提供的视频生成配套的音乐。我们的方法通过分析音乐视频获取语义、场景、运动和情感特征，并利用这些特征来指导音乐生成模型。我们还创建了一个称为 MuVi-Sync 的多模态数据集，用于训练新颖的 Affective Multimodal Transformer (AMT) 模型，以生成与视频相匹配的音乐。在实验证明，我们的提出的框架能够生成与视频内容情感相符的音乐，并通过用户研究证实了音乐质量和音乐与视频的匹配质量。我们的提出的 AMT 模型和新数据集 MuVi-Sync 为视频音乐生成任务迈出了有希望的一步。

Abstract

Numerous studies in the field of music generation have demonstrated impressive performance, yet virtually no models are able to directly generate music to match accompanying videos. In this work, we develop a generative music AI framework, Video2Music, that can match a provided video.

music generation video-to-music matching affective multimodal transformer muvi-sync dataset music-video matching

发现论文，激发创造

Music2Video：音频和文本融合的自动生成音乐视频

利用多模态特征空间中的文本和音频嵌入指导生成模型的生成图像，进一步实现音乐视频创作，我们提出的方法需要对视频进行自动分段，同时保持时间上的一致性，与以前的方法不同，我们的方法融合了文本和音频两个模态，展示了良好的应用效果

Jan, 2022

VidMuse: 一个简单的长短期建模视频音乐生成框架

本文系统研究了仅基于视频生成音乐的方法，并提出了一个大规模数据集和一个名为 VidMuse 的简单框架，该框架通过在局部和全局可视线索的引导下，使用长短期模型创建与视频内容一致的音频轨迹，实现了高保真度的音乐生成及其与视频的音视一致性对齐。通过广泛的实验证明，VidMuse 在音频质量、多样性和音视对齐方面优于现有模型。

Jun, 2024

可控音乐变换器生成视频背景音乐

本文提出了一种基于 Controllable Music Transformer 的视频背景音乐生成方法，该方法考虑到了视频与背景音乐之间的韵律一致性，可以同时实现对音乐类型、乐器等因素的全局与局部控制，生成的音乐具有较好的兼容性和卓越的质量。

Nov, 2021

从视频学习生成音乐的福利音乐

本文介绍了 Foley Music 系统，该系统能够为视频生成逼真的音乐。该系统将视频转换为基于运动的 MIDI 事件，然后利用 Graph-Transformer 框架精确地预测 MIDI 事件序列并转换为逼真的音乐，同时还具有完全可解释和透明的 MIDI 表示形式，可以实现灵活的音乐编辑。实验结果表明，该系统在生成宜人的音乐方面优于现有的几个系统。

Jul, 2020

基于语言引导的视频音乐推荐系统

该研究提出了一种音乐推荐的方法，允许用户使用自由形式的自然语言来引导音乐选择，解决了没有音乐文本描述的挑战，并使用文本合成方法训练了新的三模态模型，该模型的检索音频可通过与视频呈现的视觉风格和语言查询中描述的音乐风格、心情或器乐匹配，以匹配两个输入模态的准确性。

Jun, 2023

V2Meow: 通过音乐生成来模拟视觉律动的喵叫

本文介绍了一种名为 V2Meow 的多阶段自回归模型方法，它不需要使用任何平行的象征性音乐数据，通过预训练的可靠视觉特征即可生成与视频语义相对应的高保真音频波形，并支持对音乐风格的高级控制。

May, 2023

跨模态音乐视频推荐：设计选择研究

本研究在音乐 / 视频跨模态推荐方面采用自监督学习范式，并利用预训练的 MuSimNet，OpenL3，MusicCNN 或 AudioSet 等音频嵌入来大幅改善推荐效果。其中，通过跨模态三元组损失进行学习比通常自监督学习采用的二元交叉熵损失具有更好的效果，验证了 VM-NET 的有效性。

Apr, 2021

Diff-BGM: 视频背景音乐生成的扩散模型

本文通过提出高质量的音乐视频数据集 BGM909 并进行详细注释和镜头检测，使用检索精确度度量标准来评估音乐质量，提出了 Diff-BGM 框架，以自动为给定的视频生成背景音乐，并引入片段感知交叉注意力层进行视频和音乐的顺序对齐，实验证明了我们提出方法的有效性。

May, 2024

莫扎特之触：基于预训练大模型的轻量级多模态音乐生成框架

AI-Generated Content (AIGC) has advanced rapidly in recent years, but research on multi-modal music generation is limited. This paper presents a framework called Mozart's Touch that can generate music aligned with cross-modal inputs. The framework consists of three main components: Multi-modal Captioning Module, Large Language Model (LLM) Understanding & Bridging Module, and Music Generation Module. Using interpretable prompts and the LLM-Bridge method, the model outperforms current state-of-the-art models according to objective and subjective evaluations.

May, 2024

探索文本生成音乐中的个性化方法

调查了在 few-shot 设置中对文本到音乐扩散模型进行个性化的工作。首次探索了将预训练的文本到音频扩散器与两种常用的个性化方法结合的组合。实验了音频特定数据增强对系统整体性能的影响，并评估了不同的训练策略。构建了一个包含提示和音乐片段的新数据集进行评估，使用基于嵌入和基于音乐的量化评估指标，以及用户研究进行定性评估。分析表明相似度度量与用户偏好一致，并且当前的个性化方法更容易学习到节奏音乐结构而非旋律。该研究的代码、数据集和示例资料对研究社区开放。

Sep, 2023