用循环模型进行音频 - 乐谱检索的片段摘要
通过深度学习方法,通过跨模态音乐检索技术,连接大量乐谱图片和相应音频录音,解决音频和乐谱图片相互关联的问题,同时提出了一些挑战和方法来解决这些挑战,以实现跨模态音乐检索的统一和稳定的方法。
Sep, 2023
我们通过自监督对比学习的方法,研究了如何减轻多模态音乐检索模型中标注数据稀缺的限制,并提出了经过预训练的模型能够更好地检索音乐片段,并在交叉模态的作品识别任务中获得更好的检索质量的观察结果。
Sep, 2023
该研究使用神经网络跨模态嵌入空间解决音频和乐谱图像之间的匹配问题,并在五个不同作曲家的古典钢琴音乐上进行实验,展示出多模态神经网络处理乐谱和音频的成果。
Jul, 2017
本文旨在研究跨媒体检索中的乐曲检索,基于 Deep Canonical Correlation Analysis 学习相关空间,能够检索图片和音频之间的乐曲片段,初步实验结果有所进展。
Dec, 2016
本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法,实现了跨模态特征学习的无监督方法,并得出了良好的检索结果。
Jan, 2018
该论文提出了一种新的跨模态嵌入学习策略,通过多路匹配问题学习嵌入,显著提升了音频到视频同步任务的表现,并用学习到的嵌入进行自我监督的视觉语音识别。
Sep, 2018
本研究探讨了应用循环神经网络识别音乐中传达的情感,旨在通过将音乐调整到适合听众的情感状态,增强音乐推荐系统并支持治疗干预。我们使用 Russell 的情感象限将音乐分类为四个不同的情感区域,并开发了能够准确预测这些类别的模型。我们的方法涉及使用 Librosa 提取全面的音频特征,并应用各种循环神经网络架构,包括标准 RNN,双向 RNN 和 LSTM 网络。初步实验使用包含 900 个已标记情感象限的音频片段数据集进行,我们将神经网络模型的性能与一组基准分类器进行比较,并分析其在捕捉音乐表达中固有的时间动态方面的有效性。结果表明,在较小的数据集中,较简单的 RNN 架构的表现可能与更复杂的模型相当甚至更优。我们还在较大的数据集上应用了以下实验:一是基于我们原始数据集进行的增强,另一是来自其他来源。这项研究不仅增进了我们对音乐情感影响的理解,还展示了神经网络在创建更个性化和情感共鸣的音乐推荐和治疗系统方面的潜力。
May, 2024
本研究在音乐 / 视频跨模态推荐方面采用自监督学习范式,并利用预训练的 MuSimNet,OpenL3,MusicCNN 或 AudioSet 等音频嵌入来大幅改善推荐效果。其中,通过跨模态三元组损失进行学习比通常自监督学习采用的二元交叉熵损失具有更好的效果,验证了 VM-NET 的有效性。
Apr, 2021
本文介绍了一种音频和歌词之间深度序列相关性的跨模态学习架构,其中涉及两个分支的深度神经网络,通过转换到相同的规范空间并利用互模态规范相关分析作为目标函数来计算时间结构的相似性。实验结果证实了所提出跨模态音乐检索的深度相关学习体系结构的有效性。
Nov, 2017