VMAS：通过语义对齐在网络音乐视频中生成视频音乐

Sep, 2024

VMAS：通过语义对齐在网络音乐视频中生成视频音乐

VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos

Yan-Bo Lin, Yu Tian, Linjie Yang, Gedas Bertasius, Heng Wang

TL;DR本研究解决了从视频生成背景音乐的方法缺乏多样性和符号音乐注释不足的问题。提出了一种新颖的生成视频音乐Transformer及语义对齐方案，使得生成的音乐能够与视频内容高度一致。该方法在2.2M的视频音乐样本数据集上表现优越，具有广泛的应用潜力。

Abstract

We present a framework for learning to generate background music from video inputs. Unlike existing works that rely on symbolic musical annotations, which are limited in quantity and diversity, our method leverages large-scale web videos accompanied by background music. This enables our model to learn to generate realistic and diverse music. To accomplish th

发现论文，激发创造

从舞蹈视频生成复杂音乐的量化生成对抗网络

D2M-GAN是一个基于多模态对抗网络的音乐生成框架，能够根据舞蹈视频生成对应的流行音乐等复杂风格，使用向量量化的音频表示，通过对多个数据集的评估，证明了此方法的有效性，并提供了一个使用TikTok视频的数据集用于未来相关研究的起点。

Apr, 2022

Generative Disco: 音乐可视化的文本到视频生成

使用生成AI系统Generative Disco，可以根据音乐的节奏生成音频反应的视频，并通过设计模式进行改进，纵向分为转换和保持，研究表明该系统易于使用且高度表现力，适用于专业人士和AI生成内容正在改变创作工作的领域。

Apr, 2023

长期节奏视频音轨器

该论文介绍了一个称为 LORIS 的新框架，用于在长期条件下生成可靠的波形，以生成与节奏视觉提示同步的音乐配乐，并扩展其模型的适用性，从舞蹈到多种体育场景，如地面练习和花样滑冰。

May, 2023

V2Meow: 通过音乐生成来模拟视觉律动的喵叫

本文介绍了一种名为V2Meow的多阶段自回归模型方法，它不需要使用任何平行的象征性音乐数据，通过预训练的可靠视觉特征即可生成与视频语义相对应的高保真音频波形，并支持对音乐风格的高级控制。

May, 2023

MusicLDM: 使用节奏同步混合策略增强文本生成音乐中的新颖性

通过构建一种文本到音乐模型，并利用分布式扩散模型和音频广义线性模型来进行训练以生成新音乐，解决了音乐生成过程中的数据不足、版权和抄袭等问题。同时通过节拍跟踪和两种不同的数据增强策略，即拍子同步音频混合和拍子同步潜在混合，实现对训练数据的重组，从而生成多样化且保持风格一致的音乐。最终，通过基于对比语音-音频预训练模型的评估指标，进一步证明了所提出的音乐生成模型和拍子同步混合策略能够提高生成音乐的质量、创新性和与输入文本的对应关系。

Aug, 2023

通过文本到视频模型的调整实现多样和一致的音视频生成

生成多样化和逼真的视频，根据语义类别广泛的自然音频样本进行引导。采用了基于轻量级适配器网络的方法，将音频基础表示映射到文本-视频生成模型所期望的输入表示，实现了对文本、音频以及文本和音频的生成视频。在三个数据集上验证了该方法，展示了生成的音频视频样本的显著语义多样性，并提出了一种新的评估度量（AV-Align）以评估生成视频与输入音频样本的对齐性。与最新的先进方法相比，我们的方法生成的视频在内容和时间轴上都与输入音频更好地对齐，并且呈现更高的视觉质量和多样性。

Sep, 2023

Video2Music: 使用情感多模态Transformer模型从视频中生成合适的音乐

在本研究中，我们开发了一个名为Video2Music的生成音乐AI框架，能够根据提供的视频生成配套的音乐。我们的方法通过分析音乐视频获取语义、场景、运动和情感特征，并利用这些特征来指导音乐生成模型。我们还创建了一个称为MuVi-Sync的多模态数据集，用于训练新颖的Affective Multimodal Transformer (AMT)模型，以生成与视频相匹配的音乐。在实验证明，我们的提出的框架能够生成与视频内容情感相符的音乐，并通过用户研究证实了音乐质量和音乐与视频的匹配质量。我们的提出的AMT模型和新数据集MuVi-Sync为视频音乐生成任务迈出了有希望的一步。

Nov, 2023

Diff-BGM: 视频背景音乐生成的扩散模型

本文通过提出高质量的音乐视频数据集BGM909并进行详细注释和镜头检测，使用检索精确度度量标准来评估音乐质量，提出了Diff-BGM框架，以自动为给定的视频生成背景音乐，并引入片段感知交叉注意力层进行视频和音乐的顺序对齐，实验证明了我们提出方法的有效性。

May, 2024

VidMuse: 一个简单的长短期建模视频音乐生成框架

本文系统研究了仅基于视频生成音乐的方法，并提出了一个大规模数据集和一个名为VidMuse的简单框架，该框架通过在局部和全局可视线索的引导下，使用长短期模型创建与视频内容一致的音频轨迹，实现了高保真度的音乐生成及其与视频的音视一致性对齐。通过广泛的实验证明，VidMuse在音频质量、多样性和音视对齐方面优于现有模型。

Jun, 2024

MuVi：具有语义对齐和节奏同步的视频到音乐生成

本文研究了如何生成与视频视觉内容一致的音乐，解决了生成音乐与视觉叙事之间的深度理解问题。提出的MuVi框架通过独特的视觉适配器分析视频内容，从而生成与视频的情感、主题、节奏和节拍相匹配的音乐，显著提高了音视内容的融合体验。实验结果表明，MuVi在音质和时序同步方面表现出色。

Oct, 2024