- 机器学习技术在自动音乐转录中的应用:系统调研
音乐信息检索领域的自动音乐转录(AMT)是一项核心挑战,旨在将音频信号转换为音乐符号表示,本文扼要回顾了 AMT 在音乐信号分析中的关键作用,强调了由于音乐和谐的复杂和相互叠加的频谱结构而对 AMT 的重要性,通过对 AMT 中现有的机器学 - 跨模态音乐处理的带语义注释的 Mosa 数据集
本文介绍了 MOSA(Music mOtion with Semantic Annotation)数据集,它包含由 23 位专业音乐家演奏的 742 个专业音乐表演的高质量三维运动捕捉数据,与音频录音及音高、节拍、乐句、动态、演奏和和谐等音 - MidiCaps -- 一个带有文本说明的大规模 MIDI 数据集
通过结合语言模型与音乐编码的 MidiCaps 数据集,该研究旨在推动生成模型在文本到 MIDI 的领域的发展,并促进音乐信息检索和自然语言处理交叉领域的进展。
- 印度艺术音乐拉格识别的可解释深度学习分析
本研究介绍了一个新的数据集 PIM-v1,其中包含了 191 小时的精心标注的北印度古典音乐录音,是我们所知最大的北印度古典音乐录音的标注数据集。我们使用 PIM-v1 数据集进行剔除实验,以找到自动识别 Ragas 的基准分类模型,为 1 - 音乐信息检索中用于音乐流派识别的一种新型音频表示
通过将音乐进行深度向量量化,为创新的生成音乐模型 Jukebox 创建了一种新型的音频表示方法,并使用与最先进水平相当的数据集进行比较分析,结果显示 Jukebox 的音频表示方法在预训练使用限定数据集时不如 Mel 频谱图,这可能是因为 - 符号音乐生成和信息检索的自然语言处理方法:一项调查
本文是一篇调查论文,研究了将自然语言处理(NLP)方法应用于符号音乐生成和信息检索的研究,提出了符号音乐的表示方法和深度学习模型,并讨论了 NLP 工具在符号音乐数据中的有效使用以及进一步研究的可能性。
- DeepSRGM -- 基于深度学习的印度古典音乐序列分类与排序
该论文介绍了一种基于深度学习的 Raga 识别方法,使用 LSTM-RNN 学习音乐数据的时间序列,在 Comp Music Carnatic 数据集上达到了 88.1% 的准确率,在其 10 个 Raga 子集上达到了 97% 的准确率, - 通过领域对抗训练学习的稳健音乐表示的音乐自动标记
采用领域对抗训练 (DAT) 方法,结合合成噪声音乐数据和无标签噪声音乐数据,提高了音乐自动标记的性能,并加强了模型在不同噪声环境下的泛化能力。
- 具有歌曲结构图分析的组合音乐生成模型
提出了一种符号音乐生成模型,使用了歌曲结构图分析网络构建了一个图,利用音符序列和乐器等信息作为节点特征,音符序列之间的相关性作为边特征。通过训练图神经网络来获取图中节点的表示,然后将节点表示作为 Unet 的输入生成 CONLON 钢琴滚动 - MMWikiMuTe:音频音乐的语义描述的网络数据集
使用多模态深度学习技术匹配自由形式的文本与音乐在音乐信息检索领域显示出有希望的结果。本研究提出了一个包含音乐丰富语义描述的新开放数据集 WikiMuTe,数据源于维基百科的音乐作品文章目录。使用专门的文本挖掘流程提取覆盖音乐内容各种主题的长 - 音乐生成是否能够为 MIR 任务创建训练数据?
通过使用基于人工智能的生成音乐系统为音乐信息检索(MIR)任务生成训练数据,我们探讨了更广泛的概念。为了启动这个研究方向,我们进行了一项初步实验,利用 MusicGen 创建了一个完全人工的音乐数据集,在此基础上我们训练了一个流派分类器。我 - 时间和音符时长的分词对深度学习的符号音乐建模的影响
本研究分析了常见的符号化音乐分词方法以及时间和音符长度表示对深度学习模型性能的影响,并通过多个任务的比较展示了直接信息在不同任务中提供更好的结果。
- WikiMT++ 数据集卡片
WikiMT++ 是 WikiMusicText (WikiMT) 的扩展和改进版本,包括 1010 个精选的 ABC 符号音乐简谱。为了增加 WikiMT 的应用场景,我们添加了客观属性(专辑、歌词、视频)和主观情感(12 个情感形容词) - 基于扩散的多乐器音乐合成的性能调整
在音乐信息检索(MIR)中,从符号音乐表示生成多仪器音乐是一项重要任务。本研究的主要贡献是提出通过将生成模型的条件设置为特定表演和录音环境,从而增强多仪器合成的控制能力,从而更好地引导音色和风格。通过基于最先进的扩散音乐生成模型,我们引入了 - 音乐中语音自我监督学习的有效性研究
通过使用两个音频方案 data2vec1.0 和 Hubert,我们训练了 $12$ 个自监督学习模型,并在 13 个不同的音乐信息检索任务中进行系统评估。我们的研究表明,使用音乐数据进行训练可以提高 MIR 任务性能,即使使用的是设计用于 - MARBLE: 音乐音频表示基准测试用于通用评估
该研究提出使用音乐音频表示基准来提高音乐信息检索任务的性能,包括定义四个层次的综合分类法,并建立了 14 个任务的统一协议。研究表明,最近提出的大规模预训练音乐语言模型在大多数任务中表现最佳。
- SANGEET: 一份基于 XML 的印度北方音乐研究开放数据集
该论文提出了一种基于 XML 的公共数据集 SANGEET,其存储了印度北部古典音乐作品的全面信息,包括元数据、结构、符号、节奏和旋律信息,用于支持多个基于机器学习的音乐信息研究任务。
- MMLooPy:一种友好的混合框架,用于电子舞曲音乐信息检索的研究
本研究介绍了一种基于 Python 的电子舞曲音频生成、深度学习技术和符号音乐的自动化结构,可用于 MIR 的 EDM 歌曲,以缓解获取标注数据的难度。研究表明,我们的混音可以在主观和客观标准上达到与世界知名艺术家制作的参考歌曲相同的质量。
- 自动音乐转录中乐器间知识的传递
本文探讨使用软件合成音频数据训练通用模型来加快乐器自动转录模型的转移学习,结果表明使用合成数据训练模型可能是预训练通用模型的良好基础。
- 音乐相似度检索和自动标记中度量学习的自监督辅助损失
本研究提出了一种基于自我监督学习方法的模型,通过介绍自我监督辅助损失的度量学习方法来解决基于相似性的检索挑战。实验结果表明,该方法可以增强检索和标记性能指标,可用于所有音乐曲目和部分音乐曲目的两种情况。