MuVi：具有语义对齐和节奏同步的视频到音乐生成

Oct, 2024

MuVi：具有语义对齐和节奏同步的视频到音乐生成

MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization

Ruiqi Li, Siqi Zheng, Xize Cheng, Ziang Zhang, Shengpeng Ji...

TL;DR本文研究了如何生成与视频视觉内容一致的音乐，解决了生成音乐与视觉叙事之间的深度理解问题。提出的MuVi框架通过独特的视觉适配器分析视频内容，从而生成与视频的情感、主题、节奏和节拍相匹配的音乐，显著提高了音视内容的融合体验。实验结果表明，MuVi在音质和时序同步方面表现出色。

Abstract

Generating music that aligns with the visual content of a video has been a challenging task, as it requires a deep understanding of visual semantics and involves generating music whose melody, rhythm, and dynamics harmonize with the visual narratives. This paper presents MuVi, a novel framework that effectively addresses these challenges to enhance the cohes

发现论文，激发创造

Generative Disco: 音乐可视化的文本到视频生成

使用生成AI系统Generative Disco，可以根据音乐的节奏生成音频反应的视频，并通过设计模式进行改进，纵向分为转换和保持，研究表明该系统易于使用且高度表现力，适用于专业人士和AI生成内容正在改变创作工作的领域。

Apr, 2023

长期节奏视频音轨器

该论文介绍了一个称为 LORIS 的新框架，用于在长期条件下生成可靠的波形，以生成与节奏视觉提示同步的音乐配乐，并扩展其模型的适用性，从舞蹈到多种体育场景，如地面练习和花样滑冰。

May, 2023

V2Meow: 通过音乐生成来模拟视觉律动的喵叫

本文介绍了一种名为V2Meow的多阶段自回归模型方法，它不需要使用任何平行的象征性音乐数据，通过预训练的可靠视觉特征即可生成与视频语义相对应的高保真音频波形，并支持对音乐风格的高级控制。

May, 2023

Video2Music: 使用情感多模态Transformer模型从视频中生成合适的音乐

在本研究中，我们开发了一个名为Video2Music的生成音乐AI框架，能够根据提供的视频生成配套的音乐。我们的方法通过分析音乐视频获取语义、场景、运动和情感特征，并利用这些特征来指导音乐生成模型。我们还创建了一个称为MuVi-Sync的多模态数据集，用于训练新颖的Affective Multimodal Transformer (AMT)模型，以生成与视频相匹配的音乐。在实验证明，我们的提出的框架能够生成与视频内容情感相符的音乐，并通过用户研究证实了音乐质量和音乐与视频的匹配质量。我们的提出的AMT模型和新数据集MuVi-Sync为视频音乐生成任务迈出了有希望的一步。

Nov, 2023

音乐一致性模型

MusicCM利用一致性模型来高效合成音乐剪辑的mel-频谱图，通过最小化采样步骤保持高质量，并通过多个扩散过程生成连贯的音乐，实现了计算效率、保真度和自然性的有效性。

Apr, 2024

Diff-BGM: 视频背景音乐生成的扩散模型

本文通过提出高质量的音乐视频数据集BGM909并进行详细注释和镜头检测，使用检索精确度度量标准来评估音乐质量，提出了Diff-BGM框架，以自动为给定的视频生成背景音乐，并引入片段感知交叉注意力层进行视频和音乐的顺序对齐，实验证明了我们提出方法的有效性。

May, 2024

VidMuse: 一个简单的长短期建模视频音乐生成框架

本文系统研究了仅基于视频生成音乐的方法，并提出了一个大规模数据集和一个名为VidMuse的简单框架，该框架通过在局部和全局可视线索的引导下，使用长短期模型创建与视频内容一致的音频轨迹，实现了高保真度的音乐生成及其与视频的音视一致性对齐。通过广泛的实验证明，VidMuse在音频质量、多样性和音视对齐方面优于现有模型。

Jun, 2024

音频生成及其隐式对齐

通过探索视觉编码器、辅助嵌入、数据增强技术等方面，该研究旨在提供对视频到音频生成范式的洞察。通过全面的评估流程，并强调生成质量和视频音频同步对齐，论文展示了其模型在视频到音频生成方面的最新能力。此外，研究还提供了不同数据增强方法对增强生成框架整体性能的影响的重要见解，为从语义和时间角度生成同步音频的挑战展示了可能性。希望这些洞察能为开发更加逼真准确的音视频生成模型奠定基础。

Jul, 2024

VMAS：通过语义对齐在网络音乐视频中生成视频音乐

本研究解决了从视频生成背景音乐的方法缺乏多样性和符号音乐注释不足的问题。提出了一种新颖的生成视频音乐Transformer及语义对齐方案，使得生成的音乐能够与视频内容高度一致。该方法在2.2M的视频音乐样本数据集上表现优越，具有广泛的应用潜力。

Sep, 2024

自回归下视频音频的时间对齐

本研究解决了视频到音频生成的时间对齐和相关性不足的问题，提出了首个自回归模型V-AURA。通过高帧率视觉特征提取器和跨模态音视频特征融合策略，V-AURA实现了高精度的时间对齐和语义相关性，显著优于现有模型，同时保持音频质量。

Sep, 2024