用卷积神经网络将每个音轨映射到一个嵌入向量,并在嵌入空间中最小化覆盖对的距离,同时在非覆盖下最大化,以检测音频文件是否嵌入其目录中的音乐内容,同时提出了两种改进的方法来提高模型在困难情况下的准确性。
Oct, 2019
本文研究深度音频嵌入技术对于音乐情感识别领域的应用,探讨了 L3-Net 和 VGGish 等深度音频嵌入方法在情感识别上的表现,结果表明这些方法可有效提高基线情感识别模型的性能,且不需要人工专家工程。
Apr, 2021
该研究提出了一种使用卷积神经网络进行歌曲识别的新方法,并通过构建数据集以及训练 CNN 模型的方式来实现歌曲识别,实验结果表明该算法的性能优于或与最先进的算法相当。
Dec, 2017
本文提出了一种基于卷积神经网络的新型架构,用于解决音乐信息检索中的 Cover Song Identification 问题,随着分类策略的应用,该网络可训练出对节奏变化具有鲁棒性的模型,实验证明该方法在解决 cover song identification 问题方面表现优异。
Nov, 2019
使用用户的听歌历史和个人信息,借助于度量学习及 Siamese 网络,构建出用户嵌入和音频嵌入表示,从而提出了基于内容的音乐推荐方法,并将音频嵌入作为音乐类型分类任务的特征。实验结果表明,该方法达到了最新的性能。
Oct, 2020
使用五个嵌入模型和他们的相似性结构,我们研究了表达钢琴演奏特点的领域中的语义嵌入的不确定性,并评估了上下文提示、减少中心性、跨模态相似度和 k-means 聚类的效果。结果显示,针对这一任务的嵌入模型质量存在很大的变异性;更一般的模型表现优于领域适应模型,并且最佳模型配置达到与人类级别的一致性。
Dec, 2023
本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法,实现了跨模态特征学习的无监督方法,并得出了良好的检索结果。
Jan, 2018
该研究使用神经网络跨模态嵌入空间解决音频和乐谱图像之间的匹配问题,并在五个不同作曲家的古典钢琴音乐上进行实验,展示出多模态神经网络处理乐谱和音频的成果。
Jul, 2017
最新 MIR 发展下,利用深度学习模型进行广泛任务的领域中,关于不同音乐文化间能否使用这些模型来学习音乐表现以及是否能建立类似的音乐音频嵌入模型的研究问题引起关注。为此,我们利用迁移学习方法来探索不同音乐文化之间的相似性,并通过在西方音乐数据集、东地中海传统 / 民族数据集和印度艺术音乐数据集间训练和迁移三种不同的深度音频嵌入模型(包括两个基于卷积神经网络和一个 Transformer 架构的模型)进行自动标签化的实验,结果表明在所有领域均通过迁移学习获得了有竞争力的表现,但对于每种音乐文化来说,最佳源数据集有所不同。实现代码和训练好的模型都提供在公共存储库中。
Jul, 2023
通过领域特定的多样化特征表示,本文学习音频嵌入,比如音高、音色和神经表示等多种属性,并通过端到端架构学习,观察到虽然单独的手工制作嵌入无法超越完全的端到端表示,但将它们与端到端嵌入合并,显著提高性能。这项工作为将领域专业知识与端到端模型结合,学习出鲁棒且多样化的表示方式铺平了道路,超越了仅仅训练端到端模型的性能。
Sep, 2023