DeepSRGM -- 基于深度学习的印度古典音乐序列分类与排序
本研究介绍了一个新的数据集 PIM-v1,其中包含了 191 小时的精心标注的北印度古典音乐录音,是我们所知最大的北印度古典音乐录音的标注数据集。我们使用 PIM-v1 数据集进行剔除实验,以找到自动识别 Ragas 的基准分类模型,为 12 种 Raga 类别的子集实现了 0.89 的段内 f1 - 分数。随后,我们使用模型可解释性技术评估分类器的预测,旨在确定其是否与人类对 Ragas 的理解相一致,还是由任意模式驱动。我们通过比较两个 ExAI 模型给出的解释与人类专家的注释来验证模型的预测的正确性。随后,我们分析个别测试样例的解释,以了解解释点亮的区域在模型的正确或错误预测中的作用。
Jun, 2024
研究印度古典音乐中,不同的 raga 如何引发听众的不同情绪,探索了一种利用 raga-rasa 相关性的新型框架,结合音频信号处理和机器学习技术,构建了智能分类器以及基于用户当前情绪和所期望的情绪的音乐推荐系统。
Mar, 2022
本文使用深度循环神经网络,将音频场景转换为一系列高级标签树嵌入特征向量序列,将其分割为多个子序列,并对序列进行标签分类,最终获得全局预测标签。在 LITIS Rouen 数据集上,实现了 97.7% 的 F1 分数,与该数据集上最佳结果相比,相对分类错误率减少 35.3%。
Mar, 2017
本文采用深度学习方法,具体来说是 LSTM 网络,用于音乐转录建模和创作,使用大约 23,000 个高级词汇(ABC 符号)表示的音乐转录来构建和训练 LSTM 网络,并用其生成新的转录。实际目的是在特定的音乐创作情境中创建有用的音乐转录模型,我们从三个方面展示了结果:1)在种群水平上,比较训练转录和生成转录集的描述性统计数据;2)在个体水平上,研究生成的转录如何反映训练转录中音乐实践的惯例(凯尔特民间音乐);3)在应用级别上,使用该系统进行音乐创作的创意生成。我们开放和提供了我们的数据集、软件和声音示例:https://github.com/IraKorshunova/folk-rnn。
Apr, 2016
本研究提出了一种新的方法,利用视觉谱图作为输入,并结合 ResNet 和 GRU 的混合模型,以提供对音乐数据更全面的分析,从而可能通过实现更全面的音乐数据分析和更准确的流派分类来改善音乐推荐系统。
Jul, 2023
本文介绍了一个新的大规模音乐数据集 MusicNet,旨在为音乐研究的机器学习方法提供监督和评估,该数据集由 10 位作曲家创作的 11 种乐器的数百个自由许可的古典音乐录音以及关于它们的时间标签组成,其中包含的多标签分类任务以及多项基于机器学习结构的性能评估表明了末端到末端的神经网络在音符预测方面的学习效果最佳。
Nov, 2016
本研究探讨了应用循环神经网络识别音乐中传达的情感,旨在通过将音乐调整到适合听众的情感状态,增强音乐推荐系统并支持治疗干预。我们使用 Russell 的情感象限将音乐分类为四个不同的情感区域,并开发了能够准确预测这些类别的模型。我们的方法涉及使用 Librosa 提取全面的音频特征,并应用各种循环神经网络架构,包括标准 RNN,双向 RNN 和 LSTM 网络。初步实验使用包含 900 个已标记情感象限的音频片段数据集进行,我们将神经网络模型的性能与一组基准分类器进行比较,并分析其在捕捉音乐表达中固有的时间动态方面的有效性。结果表明,在较小的数据集中,较简单的 RNN 架构的表现可能与更复杂的模型相当甚至更优。我们还在较大的数据集上应用了以下实验:一是基于我们原始数据集进行的增强,另一是来自其他来源。这项研究不仅增进了我们对音乐情感影响的理解,还展示了神经网络在创建更个性化和情感共鸣的音乐推荐和治疗系统方面的潜力。
May, 2024
通过深度学习技术生成古典印度音乐的方法被提出,其中以 tabla 音乐为例,利用 Bi-LSTM 和 Attention 方法以及 transformer 模型进行训练,获得了相应结果。
Apr, 2024