通过受监督的深度 CCA 实现跨模式音乐视频检索的音频 - 视觉嵌入

Aug, 2019

通过受监督的深度 CCA 实现跨模式音乐视频检索的音频 - 视觉嵌入

Audio-Visual Embedding for Cross-Modal MusicVideo Retrieval through Supervised Deep CCA

Donghuo Zeng, Yi Yu, Keizo Oyama

TL;DR使用 S-DCCA 算法构建跨模态音乐视频检索模型，其中采用基于 Attention 机制 LSTM 模型选择 top k 音频块，使得得到的局部音频摘要能够很好地代表整个音频内容，构建的深度学习模型实现了音频和视频语义的跨模态学习，从而实现了跨模态情感相似的音乐视频检索，并在构造的 10K 数据集上得到了良好的 MAP 和 precision-recall 表现。

Abstract

deep learning has successfully shown excellent performance in learning joint representations between different data modalities. Unfortunately, little research focuses on cross-modal correlation learning where temporal structures of different data modalities, such as audio and video, sh

deep learning cross-modal music video retrieval supervised deep canonical correlation analysis attention-based long short-term memory model semantic correlation between audio and visual modalities

发现论文，激发创造

通过深度典范相关分析多模式语言的文本、音频和视频之间的关系

本研究提出了一个名为交互规范相关网络（ICCN）的模型，利用文本、音频和视频的特征之间的相关性来提高多模态情感分析和情感识别的准确性，该模型通过深度规范相关分析（DCCA）来学习所有三种模式之间的关联，并在多个基准数据集中进行了测试。

Nov, 2019

视频和音频检索的跨模态嵌入

本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法，实现了跨模态特征学习的无监督方法，并得出了良好的检索结果。

Jan, 2018

跨模态音乐视频推荐：设计选择研究

本研究在音乐 / 视频跨模态推荐方面采用自监督学习范式，并利用预训练的 MuSimNet，OpenL3，MusicCNN 或 AudioSet 等音频嵌入来大幅改善推荐效果。其中，通过跨模态三元组损失进行学习比通常自监督学习采用的二元交叉熵损失具有更好的效果，验证了 VM-NET 的有效性。

Apr, 2021

跨模态音视频聚类的自监督学习

实现了基于交叉模态预测、自监督学习和深度聚类的方法，通过将一种模态的非监督聚类用作对另一种模态的监督信号来利用视觉和音频之间的语义相关性和差异，实现了在多个视频和音频数据集上优于其他方法的预训练模型，特别是通过仅使用大规模无标签数据预训练的视频模型，相比使用 ImageNet 和 Kinetics 数据进行了全监督预训练的同一架构，更显著地提高了在 HMDB51 和 UCF101 上的动作识别精度。

Nov, 2019

朝向端到端的音频 - 乐谱检索

本文旨在研究跨媒体检索中的乐曲检索，基于 Deep Canonical Correlation Analysis 学习相关空间，能够检索图片和音频之间的乐曲片段，初步实验结果有所进展。

Dec, 2016

音乐检索中音频和歌词的深度跨模态相关性学习

本文介绍了一种音频和歌词之间深度序列相关性的跨模态学习架构，其中涉及两个分支的深度神经网络，通过转换到相同的规范空间并利用互模态规范相关分析作为目标函数来计算时间结构的相似性。实验结果证实了所提出跨模态音乐检索的深度相关学习体系结构的有效性。

Nov, 2017

深度多模态无监督音视频聚类学习

提出了一种名为 Deep Multimodal Clustering 的无监督音频视觉学习模型，采用不同共享空间的多模态矢量的卷积映射集，进行多音频视觉对应关系的捕捉和精细对应学习，并通过最大间隔损失进行有效训练。通过实验，该模型可以学习到有效的单模态表示，并在声音定位、多源检测和音频视觉理解方面显示出显著的性能。

Jul, 2018

完美匹配：音频 - 视觉同步的改进型跨模态嵌入

该论文提出了一种新的跨模态嵌入学习策略，通过多路匹配问题学习嵌入，显著提升了音频到视频同步任务的表现，并用学习到的嵌入进行自我监督的视觉语音识别。

Sep, 2018

利用软内部模态结构约束的基于内容的视频音乐检索

本文介绍了一种新的基于内容的跨模态检索方法，通过深度神经网络实现视频和音乐之间的交叉检索，并使用软内部模态结构损失来保留模态特征，同时提出了标准化的实验协议并构建了一个大规模的视频 - 音乐匹配基准。

Apr, 2017

基于深度正交规范化相关分析的多模态情感识别

本文介绍了 DCCA 在多模态情感识别中的应用，并对现有方法的噪音鲁棒性进行了比较。实验结果表明，DCCA 在不同数据集上均取得了最先进的识别准确率，同时也表现出更好的噪音鲁棒性。通过可视化特征分布和计算不同模态之间的互信息等方法，证明 DCCA 能够更好地实现多模态组合和情感表达的一致性。

Aug, 2019