学习音乐和图像之间的情感对应关系

Mar, 2019

学习音乐和图像之间的情感对应关系

Learning Affective Correspondence between Music and Image

Gaurav Verma, Eeshan Gunesh Dhekane, Tanaya Guha

TL;DR提出了一种解决音频和图像情感对应的问题的深度神经网络模型，通过学习将情感数据从不同模态的输入投影到共同的表示空间中，通过二元分类预测情感对应（真或假）。

Abstract

We introduce the problem of learning affective correspondence between audio (music) and visual data (images). For this task, a music clip

audio visual affective correspondence deep neural network emotion recognition

发现论文，激发创造

基于多模态深度模型的电影情感反应预测

本研究旨在开发和分析多模态模型，预测观众观看电影片段时的情感反应。研究发现，通过提取 RGB 帧和光流的特征以及音频中的各种低级描述符，采用深度神经网络模型来进行情感预测更为精确。其中，光流特征比 RGB 视频更加信息含量丰富，且音频特征的预测精度高于视频特征。

Sep, 2019

基于深度神经网络的音频和歌词的音乐情感检测

本研究考虑了基于音频信号和歌词的多模态音乐情绪预测任务，复现传统特征工程方法的基础上提出了一种基于深度学习的新模型，证明了新方法相较于传统模型更擅长于唤起用户的注意，而在情感预测上两种方法表现相当。此外，我们还比较了不同的融合方法，在同时优化各单模态模型时取得了较大的提升，并向公众发布部分数据以供参考。

Sep, 2018

音乐检索中音频和歌词的深度跨模态相关性学习

本文介绍了一种音频和歌词之间深度序列相关性的跨模态学习架构，其中涉及两个分支的深度神经网络，通过转换到相同的规范空间并利用互模态规范相关分析作为目标函数来计算时间结构的相似性。实验结果证实了所提出跨模态音乐检索的深度相关学习体系结构的有效性。

Nov, 2017

跨模态音乐视频推荐：设计选择研究

本研究在音乐 / 视频跨模态推荐方面采用自监督学习范式，并利用预训练的 MuSimNet，OpenL3，MusicCNN 或 AudioSet 等音频嵌入来大幅改善推荐效果。其中，通过跨模态三元组损失进行学习比通常自监督学习采用的二元交叉熵损失具有更好的效果，验证了 VM-NET 的有效性。

Apr, 2021

情感不欺人：利用情感线索的音视频 Deepfake 检测方法

本文提出了一种基于学习的方法来检测真实和虚假的 deepfake 多媒体内容，通过提取和分析同一视频中两种音频和视觉模态之间的相似性，以及提取和比较情感线索来推断输入视频是 “真实” 还是 “虚假”，并提出了一种深度学习网络，同时利用音频和视频模态以及两种模态的感知情绪进行 deepfake 检测，实验结果表明，本文方法在 DeepFake-TIMIT 数据集和 DFDC 数据集上分别达到了 84.4％和 96.6％的 AUC，是首个同时利用音频和视觉模态以及两种模态的感知情绪进行 deepfake 检测的方法。

Mar, 2020

使用深度神经网络增强电影情感体验预测：音频和语言的重要性

本文研究使用深度神经网络模型准确预测电影观众观看电影时所体验到的人类情感，其中包括来自 RGB 视频帧的视觉提示，涵盖声音、语音和音乐的听觉组件，以及包含演员对话的语言元素。

Jun, 2023

针对乐谱识别和离线对齐的音频 - 乐谱对应关系学习

该研究使用神经网络跨模态嵌入空间解决音频和乐谱图像之间的匹配问题，并在五个不同作曲家的古典钢琴音乐上进行实验，展示出多模态神经网络处理乐谱和音频的成果。

Jul, 2017

自监督对比学习用于稳健的音乐 - 乐谱检索系统

我们通过自监督对比学习的方法，研究了如何减轻多模态音乐检索模型中标注数据稀缺的限制，并提出了经过预训练的模型能够更好地检索音乐片段，并在交叉模态的作品识别任务中获得更好的检索质量的观察结果。

Sep, 2023

通过受监督的深度 CCA 实现跨模式音乐视频检索的音频 - 视觉嵌入

使用 S-DCCA 算法构建跨模态音乐视频检索模型，其中采用基于 Attention 机制 LSTM 模型选择 top k 音频块，使得得到的局部音频摘要能够很好地代表整个音频内容，构建的深度学习模型实现了音频和视频语义的跨模态学习，从而实现了跨模态情感相似的音乐视频检索，并在构造的 10K 数据集上得到了良好的 MAP 和 precision-recall 表现。

Aug, 2019

深度音频嵌入在音乐情感识别中的比较与分析

本文研究深度音频嵌入技术对于音乐情感识别领域的应用，探讨了 L3-Net 和 VGGish 等深度音频嵌入方法在情感识别上的表现，结果表明这些方法可有效提高基线情感识别模型的性能，且不需要人工专家工程。

Apr, 2021