音乐和视频的艺术通信时代

CVPRJun, 2022

It's Time for Artistic Correspondence in Music and Video

Didac Suris, Carl Vondrick, Bryan Russell, Justin Salamon

TL;DR本文提出了一种基于自我监督学习的方法，使用 Transformer 网络建模视频和音乐信号的长期时间上下文，以实现音乐和视频之间的艺术语义对应以及它们之间的互相推荐，并在实验中表现出很强的性能优势。

Abstract

We present an approach for recommending a music track for a given video, and vice versa, based on both their temporal alignment and their correspondence at an artistic level. We propose a self-supervised approach that learns this correspondence directly from data, without any need of human annotations. In order to capture the high-level concepts that are req

music recommendation artistic correspondence self-supervised learning transformer networks temporal context

发现论文，激发创造

采用时间段的时序对齐进行视频 - 音乐推荐

研究视频配乐中的跨模式推荐问题，使用自我监督系统学习音乐和视频间的内容关联，提出了结构感知推荐方法，在训练与推断过程中，使用语义片段和不同的排序指标和分割方法来显著提高系统性能。

Jun, 2023

跨模态音乐视频推荐：设计选择研究

本研究在音乐 / 视频跨模态推荐方面采用自监督学习范式，并利用预训练的 MuSimNet，OpenL3，MusicCNN 或 AudioSet 等音频嵌入来大幅改善推荐效果。其中，通过跨模态三元组损失进行学习比通常自监督学习采用的二元交叉熵损失具有更好的效果，验证了 VM-NET 的有效性。

Apr, 2021

基于语言引导的视频音乐推荐系统

该研究提出了一种音乐推荐的方法，允许用户使用自由形式的自然语言来引导音乐选择，解决了没有音乐文本描述的挑战，并使用文本合成方法训练了新的三模态模型，该模型的检索音频可通过与视频呈现的视觉风格和语言查询中描述的音乐风格、心情或器乐匹配，以匹配两个输入模态的准确性。

Jun, 2023

学习音乐和图像之间的情感对应关系

提出了一种解决音频和图像情感对应的问题的深度神经网络模型，通过学习将情感数据从不同模态的输入投影到共同的表示空间中，通过二元分类预测情感对应（真或假）。

Mar, 2019

Video2Music: 使用情感多模态 Transformer 模型从视频中生成合适的音乐

在本研究中，我们开发了一个名为 Video2Music 的生成音乐 AI 框架，能够根据提供的视频生成配套的音乐。我们的方法通过分析音乐视频获取语义、场景、运动和情感特征，并利用这些特征来指导音乐生成模型。我们还创建了一个称为 MuVi-Sync 的多模态数据集，用于训练新颖的 Affective Multimodal Transformer (AMT) 模型，以生成与视频相匹配的音乐。在实验证明，我们的提出的框架能够生成与视频内容情感相符的音乐，并通过用户研究证实了音乐质量和音乐与视频的匹配质量。我们的提出的 AMT 模型和新数据集 MuVi-Sync 为视频音乐生成任务迈出了有希望的一步。

Nov, 2023

视频文字弱监督对齐

本文提出了一种方法来自动对齐视频和文本，并使用向量特征将其视为时间分配问题，最终得出整数解决方案，这在对齐视频与符号标签方面取得了显着的改进并在具有相关文本说明的挑战性数据集上进行了评估。

May, 2015

完美匹配：音频 - 视觉同步的改进型跨模态嵌入

该论文提出了一种新的跨模态嵌入学习策略，通过多路匹配问题学习嵌入，显著提升了音频到视频同步任务的表现，并用学习到的嵌入进行自我监督的视觉语音识别。

Sep, 2018

RECAP: 检索增强音乐字幕生成器

通过对多模态数据的构建和深度学习模型的训练，本文提出了一种在音频和歌词之间学习对准关系的方法，并通过此方法优化跨模态对齐，并为音乐搜索和推荐提供了理论和实证结果。

Dec, 2022

针对乐谱识别和离线对齐的音频 - 乐谱对应关系学习

该研究使用神经网络跨模态嵌入空间解决音频和乐谱图像之间的匹配问题，并在五个不同作曲家的古典钢琴音乐上进行实验，展示出多模态神经网络处理乐谱和音频的成果。

Jul, 2017

利用软内部模态结构约束的基于内容的视频音乐检索

本文介绍了一种新的基于内容的跨模态检索方法，通过深度神经网络实现视频和音乐之间的交叉检索，并使用软内部模态结构损失来保留模态特征，同时提出了标准化的实验协议并构建了一个大规模的视频 - 音乐匹配基准。

Apr, 2017