学习音乐和图像之间的情感对应关系
本研究旨在开发和分析多模态模型,预测观众观看电影片段时的情感反应。研究发现,通过提取 RGB 帧和光流的特征以及音频中的各种低级描述符,采用深度神经网络模型来进行情感预测更为精确。其中,光流特征比 RGB 视频更加信息含量丰富,且音频特征的预测精度高于视频特征。
Sep, 2019
本研究考虑了基于音频信号和歌词的多模态音乐情绪预测任务,复现传统特征工程方法的基础上提出了一种基于深度学习的新模型,证明了新方法相较于传统模型更擅长于唤起用户的注意,而在情感预测上两种方法表现相当。此外,我们还比较了不同的融合方法,在同时优化各单模态模型时取得了较大的提升,并向公众发布部分数据以供参考。
Sep, 2018
本文介绍了一种音频和歌词之间深度序列相关性的跨模态学习架构,其中涉及两个分支的深度神经网络,通过转换到相同的规范空间并利用互模态规范相关分析作为目标函数来计算时间结构的相似性。实验结果证实了所提出跨模态音乐检索的深度相关学习体系结构的有效性。
Nov, 2017
本研究在音乐 / 视频跨模态推荐方面采用自监督学习范式,并利用预训练的 MuSimNet,OpenL3,MusicCNN 或 AudioSet 等音频嵌入来大幅改善推荐效果。其中,通过跨模态三元组损失进行学习比通常自监督学习采用的二元交叉熵损失具有更好的效果,验证了 VM-NET 的有效性。
Apr, 2021
本文提出了一种基于学习的方法来检测真实和虚假的 deepfake 多媒体内容,通过提取和分析同一视频中两种音频和视觉模态之间的相似性,以及提取和比较情感线索来推断输入视频是 “真实” 还是 “虚假”,并提出了一种深度学习网络,同时利用音频和视频模态以及两种模态的感知情绪进行 deepfake 检测,实验结果表明,本文方法在 DeepFake-TIMIT 数据集和 DFDC 数据集上分别达到了 84.4%和 96.6%的 AUC,是首个同时利用音频和视觉模态以及两种模态的感知情绪进行 deepfake 检测的方法。
Mar, 2020
本文研究使用深度神经网络模型准确预测电影观众观看电影时所体验到的人类情感,其中包括来自 RGB 视频帧的视觉提示,涵盖声音、语音和音乐的听觉组件,以及包含演员对话的语言元素。
Jun, 2023
该研究使用神经网络跨模态嵌入空间解决音频和乐谱图像之间的匹配问题,并在五个不同作曲家的古典钢琴音乐上进行实验,展示出多模态神经网络处理乐谱和音频的成果。
Jul, 2017
我们通过自监督对比学习的方法,研究了如何减轻多模态音乐检索模型中标注数据稀缺的限制,并提出了经过预训练的模型能够更好地检索音乐片段,并在交叉模态的作品识别任务中获得更好的检索质量的观察结果。
Sep, 2023
使用 S-DCCA 算法构建跨模态音乐视频检索模型,其中采用基于 Attention 机制 LSTM 模型选择 top k 音频块,使得得到的局部音频摘要能够很好地代表整个音频内容,构建的深度学习模型实现了音频和视频语义的跨模态学习,从而实现了跨模态情感相似的音乐视频检索,并在构造的 10K 数据集上得到了良好的 MAP 和 precision-recall 表现。
Aug, 2019
本文研究深度音频嵌入技术对于音乐情感识别领域的应用,探讨了 L3-Net 和 VGGish 等深度音频嵌入方法在情感识别上的表现,结果表明这些方法可有效提高基线情感识别模型的性能,且不需要人工专家工程。
Apr, 2021