音乐检索中音频和歌词的深度跨模态相关性学习
使用 S-DCCA 算法构建跨模态音乐视频检索模型,其中采用基于 Attention 机制 LSTM 模型选择 top k 音频块,使得得到的局部音频摘要能够很好地代表整个音频内容,构建的深度学习模型实现了音频和视频语义的跨模态学习,从而实现了跨模态情感相似的音乐视频检索,并在构造的 10K 数据集上得到了良好的 MAP 和 precision-recall 表现。
Aug, 2019
通过对多模态数据的构建和深度学习模型的训练,本文提出了一种在音频和歌词之间学习对准关系的方法,并通过此方法优化跨模态对齐,并为音乐搜索和推荐提供了理论和实证结果。
Dec, 2022
本研究提出了一个名为交互规范相关网络(ICCN)的模型,利用文本、音频和视频的特征之间的相关性来提高多模态情感分析和情感识别的准确性,该模型通过深度规范相关分析(DCCA)来学习所有三种模式之间的关联,并在多个基准数据集中进行了测试。
Nov, 2019
通过深度学习方法,通过跨模态音乐检索技术,连接大量乐谱图片和相应音频录音,解决音频和乐谱图片相互关联的问题,同时提出了一些挑战和方法来解决这些挑战,以实现跨模态音乐检索的统一和稳定的方法。
Sep, 2023
本文介绍了一种新颖的歌词对齐系统,使用对抗学习导出跨模态嵌入,不仅训练简单、能使用弱标注数据、学习强大的文本模型,而且可用于多语言和获得了标准数据集下平均绝对误差小于 0.2 秒的最佳结果。
Jun, 2023
本研究在音乐 / 视频跨模态推荐方面采用自监督学习范式,并利用预训练的 MuSimNet,OpenL3,MusicCNN 或 AudioSet 等音频嵌入来大幅改善推荐效果。其中,通过跨模态三元组损失进行学习比通常自监督学习采用的二元交叉熵损失具有更好的效果,验证了 VM-NET 的有效性。
Apr, 2021
我们通过自监督对比学习的方法,研究了如何减轻多模态音乐检索模型中标注数据稀缺的限制,并提出了经过预训练的模型能够更好地检索音乐片段,并在交叉模态的作品识别任务中获得更好的检索质量的观察结果。
Sep, 2023
提出了一种解决音频和图像情感对应的问题的深度神经网络模型,通过学习将情感数据从不同模态的输入投影到共同的表示空间中,通过二元分类预测情感对应(真或假)。
Mar, 2019
本研究旨在探讨通过自然语言与音频之间的跨模态学习实现音乐语义理解任务的方法,提出了一种名为 MusCALL 的框架,采用双重编码器架构进行跨模态学习,实现音频和描述语句的对齐,生成用于文本到音频和音频到文本检索的多模式嵌入,实验表明我们的方法在音频与文本检索任务中比基线方法表现更好,并且可成功扩展应用于流派分类和自动标签的零样本转移场景。
Aug, 2022
本研究考虑了基于音频信号和歌词的多模态音乐情绪预测任务,复现传统特征工程方法的基础上提出了一种基于深度学习的新模型,证明了新方法相较于传统模型更擅长于唤起用户的注意,而在情感预测上两种方法表现相当。此外,我们还比较了不同的融合方法,在同时优化各单模态模型时取得了较大的提升,并向公众发布部分数据以供参考。
Sep, 2018