利用主导旋律嵌入技术进行封面检测

Jul, 2019

利用主导旋律嵌入技术进行封面检测

Cover Detection using Dominant Melody Embeddings

Guillaume Doras, Geoffroy Peeters

TL;DR本文提出，使用神经网络架构训练每个音轨的嵌入矢量，使计算负担得以减轻。嵌入矢量提取可以脱机进行并存储，而成对比较的任务则简化为简单的欧几里德距离计算。本方法不仅在小型数据集上表现优异，而且在大型数据集上也有着进一步的提升，并且可以在几秒钟内处理数千个查询数据库。

Abstract

automatic cover detection -- the task of finding in an audio database all the covers of one or several query tracks -- has long been seen as a challenging theoretical problem in the MIR community and as an acute

automatic cover detection audio database neural network architecture embedding vector state-of-the-art accuracy

发现论文，激发创造

一种用于封面检测的原型三元组损失

用卷积神经网络将每个音轨映射到一个嵌入向量，并在嵌入空间中最小化覆盖对的距离，同时在非覆盖下最大化，以检测音频文件是否嵌入其目录中的音乐内容，同时提出了两种改进的方法来提高模型在困难情况下的准确性。

Oct, 2019

深度音频嵌入在音乐情感识别中的比较与分析

本文研究深度音频嵌入技术对于音乐情感识别领域的应用，探讨了 L3-Net 和 VGGish 等深度音频嵌入方法在情感识别上的表现，结果表明这些方法可有效提高基线情感识别模型的性能，且不需要人工专家工程。

Apr, 2021

使用卷积神经网络进行音频翻唱歌曲识别

该研究提出了一种使用卷积神经网络进行歌曲识别的新方法，并通过构建数据集以及训练 CNN 模型的方式来实现歌曲识别，实验结果表明该算法的性能优于或与最先进的算法相当。

Dec, 2017

使用卷积神经网络学习表征进行 Cover 歌曲识别

本文提出了一种基于卷积神经网络的新型架构，用于解决音乐信息检索中的 Cover Song Identification 问题，随着分类策略的应用，该网络可训练出对节奏变化具有鲁棒性的模型，实验证明该方法在解决 cover song identification 问题方面表现优异。

Nov, 2019

利用用户收听数据学习音频嵌入以进行基于内容的音乐推荐

使用用户的听歌历史和个人信息，借助于度量学习及 Siamese 网络，构建出用户嵌入和音频嵌入表示，从而提出了基于内容的音乐推荐方法，并将音频嵌入作为音乐类型分类任务的特征。实验结果表明，该方法达到了最新的性能。

Oct, 2020

描述的是否是同一声音？一项对表现钢琴演奏的词嵌入空间的分析

使用五个嵌入模型和他们的相似性结构，我们研究了表达钢琴演奏特点的领域中的语义嵌入的不确定性，并评估了上下文提示、减少中心性、跨模态相似度和 k-means 聚类的效果。结果显示，针对这一任务的嵌入模型质量存在很大的变异性；更一般的模型表现优于领域适应模型，并且最佳模型配置达到与人类级别的一致性。

Dec, 2023

视频和音频检索的跨模态嵌入

本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法，实现了跨模态特征学习的无监督方法，并得出了良好的检索结果。

Jan, 2018

针对乐谱识别和离线对齐的音频 - 乐谱对应关系学习

该研究使用神经网络跨模态嵌入空间解决音频和乐谱图像之间的匹配问题，并在五个不同作曲家的古典钢琴音乐上进行实验，展示出多模态神经网络处理乐谱和音频的成果。

Jul, 2017

从西方到东方：谁更能理解他人的音乐？

最新 MIR 发展下，利用深度学习模型进行广泛任务的领域中，关于不同音乐文化间能否使用这些模型来学习音乐表现以及是否能建立类似的音乐音频嵌入模型的研究问题引起关注。为此，我们利用迁移学习方法来探索不同音乐文化之间的相似性，并通过在西方音乐数据集、东地中海传统 / 民族数据集和印度艺术音乐数据集间训练和迁移三种不同的深度音频嵌入模型（包括两个基于卷积神经网络和一个 Transformer 架构的模型）进行自动标签化的实验，结果表明在所有领域均通过迁移学习获得了有竞争力的表现，但对于每种音乐文化来说，最佳源数据集有所不同。实现代码和训练好的模型都提供在公共存储库中。

Jul, 2023

多样化神经音频嵌入：引领特征回来！

通过领域特定的多样化特征表示，本文学习音频嵌入，比如音高、音色和神经表示等多种属性，并通过端到端架构学习，观察到虽然单独的手工制作嵌入无法超越完全的端到端表示，但将它们与端到端嵌入合并，显著提高性能。这项工作为将领域专业知识与端到端模型结合，学习出鲁棒且多样化的表示方式铺平了道路，超越了仅仅训练端到端模型的性能。

Sep, 2023