- 软动态时间规整用于多音高估计及拓展
本文介绍了一种处理音乐信息检索中涉及的弱对齐数据的新技术 —— 软动态时间规整(SoftDTW),这是一种可微分的经典动态时间规整(DTW)变体,相较于 CTC 算法在算法形式上更加优雅,能够自然地扩展到实值目标序列,并在多标签问题方面达到 - 基于图形表示和变点检测方法的符号音乐结构分析
本研究提出了三种方法,其中两种是基于图形的新颖算法,通过形式或结构对符号音乐进行分割。使用两个公共数据集对其进行了消融研究,发现使用图形表示对结构进行符号音乐编码,并计算从图中获取的邻接矩阵的新颖性可以很好地表示符号音乐的结构,同时无需提取 - MM音乐乐器分类重新编程
本研究旨在探讨如何在数据稀缺情况下,重新编程预训练的深度神经网络来解决音乐信息检索中流行的乐器分类问题。实验证明,重新编程技术能够有效地利用为不同任务学习到的表征能力,使其在训练参数量大幅减少的情况下性能接近或甚至超过最先进系统,因此重新编 - LyricJam Sonic: 实时创作与音乐即兴表演的生成系统
本论文介绍了一种名为 LyricJam Sonic 的创新型音乐创作工具,采用双模式人工智能驱动方法,具可自主或现场演出的功能,能够帮助电子音乐家重新发掘他们以前的录音,并在实时中创作新的音乐作品。
- 音乐对比语音学习
本研究旨在探讨通过自然语言与音频之间的跨模态学习实现音乐语义理解任务的方法,提出了一种名为 MusCALL 的框架,采用双重编码器架构进行跨模态学习,实现音频和描述语句的对齐,生成用于文本到音频和音频到文本检索的多模式嵌入,实验表明我们的方 - 音乐音频表示的适当对比自监督学习策略
本文研究了不同对比自监督学习方案学习的音乐音频表示,并在不同的音乐信息检索任务中经验性地评估嵌入向量,以分析结果并讨论对不同 MIR 任务的适当对比学习策略方向,表明这些表示传达了关于音乐的听觉特征的综合信息,尽管每个自我监督策略在某些方面 - 基于 Transformer 的序列到序列钢琴转录
本文展示了使用通用 encoder-decoder Transformer 和标准解码方法可实现与专业领域特定设计模型同等效果的自动音乐转录方法,从而取消了任务特定架构的需求,简化了转录,为集中精力于数据集创建和标注而非模型设计提供了可能性 - Melon Playlist Dataset: 音频播放列表生成和音乐标签的公共数据集
本文介绍了 Melon Playlist Dataset 这个基于 Melon 音乐流媒体平台的公共音乐数据集,包括 649,091 首曲目和 148,826 个关联播放列表,涵盖了 30,652 种标签,适用于音乐信息检索等任务。该数据集 - 度量学习和分类在解耦音乐表示学习中的比较
该研究提出了一个单一表征学习框架,该框架阐明了度量学习、分类和去缠结化之间的关系,提高了音乐信息检索的性能。通过评估四项任务,我们发现针对训练时间、相似度检索和自动标记,基于分类的模型通常更具优势,而深度度量学习对于三元组预测的性能表现更好 - MusiCoder: 基于 Transformers 的通用音乐 - 声学编码器
本文提出了一种名为 MusiCoder 的自监督音乐声学表示学习方法,通过掩蔽重建预训练,自适应 BERT 式的自注意力双向转换器架构,该方法在两个下游音乐注释任务中均优于现有模型,表明了自监督学习方法理解音乐的巨大潜力。
- KDDaudioLIME: 采用声音分离实现可听解释
本文提出一种名为 audioLIME 的方法,采用了基于局部可解释的模型的解释扩展方法(LIME)并扩展了局部性的音乐定义,使用源分离提取的组件开关产生扰动,是解释方法具有可听性。并且,我们在两个不同的音乐标记系统上验证了 audioLIM - ICML音乐词向量:弥合听觉语境与音乐之间的鸿沟
本文介绍了一种使用通用文本和音乐特定数据组合训练单词的分布式表征,以评估其在将听取上下文与音乐作品相关联方面的性能。
- 基于 CNN 的自动音乐标记模型评估
本文在三个数据集上对不同音乐标注模型进行一致的评估,并使用 ROC-AUC 和 PR-AUC 等常见评估指标提供参考结果,同时评估了模型的泛化能力。使用 PyTorch 提供预训练模型的实现,以保证可复制性。
- 使用卷积神经网络学习表征进行 Cover 歌曲识别
本文提出了一种基于卷积神经网络的新型架构,用于解决音乐信息检索中的 Cover Song Identification 问题,随着分类策略的应用,该网络可训练出对节奏变化具有鲁棒性的模型,实验证明该方法在解决 cover song iden - 改进 Onsets 和 Frames 的对抗学习音乐转录
使用对抗训练方案来处理多标签预测的音乐转录模型,可显著提高模型的准确性和置信度。
- 使用自我关注实现可解释的音乐标记
提出了一种基于自注意力机制的深度序列模型,用于解决音乐信息检索问题,并且相比于传统的卷积和递归神经网络方法,该模型更具可解释性且具有竞争力的结果。
- 基于音色和音高的帧级乐器识别
本文利用 MusicNet 数据集,建立并评估了一个卷积神经网络,实现基于帧级别标注的乐器识别,并尝试不同方法将音高信息融入模型,实现对于多乐器帧级别噪声的校准、乐器之间谐波比较分析等,实验结果表明相对于基线方法具有显著的性能提升。
- 重访唱歌声音检测:定量回顾与未来展望
该论文对三个现有歌声识别系统进行了误差分析,并设计了新的测试方法来进一步检查存在于当前数据集中尚未清楚揭示的缺陷,最终以实验结果为基础提出了构建更为稳健的歌声识别系统的方向。
- 为多模音乐分析创建一种多轨古典音乐演奏数据集:挑战、见解和应用
介绍了一个用于音频视觉分析音乐表演的数据集,其中包括 44 个简单的多乐器古典音乐作品的音频和视频录音、乐谱以及基于帧和音符的基础事实标注文件。该数据集可以用于 MIR 任务的开发和评估,以及为未来的比较提供基线系统。
- madmom:一个新的 Python 音频和音乐信号处理库
本文介绍了 madmom,这是一个使用 Python 编写的开源音频处理和音乐信息检索 (MIR) 库,设计紧凑,支持 NumPy,接口简单。madmom 支持在多核上无缝运行,提供多种高级 MIR 功能以及在节奏、节拍、速度等方面的状态处