本文提出一种名为audioLIME的方法,采用了基于局部可解释的模型的解释扩展方法(LIME)并扩展了局部性的音乐定义,使用源分离提取的组件开关产生扰动,是解释方法具有可听性。并且,我们在两个不同的音乐标记系统上验证了audioLIME,并证明其在一些情况下能够产生合理的解释,而其他竞争方法则无法产生。
Aug, 2020
本文提出了BART-fusion模型,用于从音乐音频和歌词中生成歌词解释,该模型结合了一个大规模预训练语言模型和一个音频编码器。实验结果显示,该模型能够更好地理解歌词和音乐,生成精确流畅的解释,并且可以帮助人们更准确地检索音乐。
Aug, 2022
本研究旨在开发一种可解释的音乐相似性分类系统,通过结合符号和音频内容,提高音乐检索、推荐和分析的效率和精度。
Jun, 2023
音乐理解和LLark的多模态模型的数据集创建、多模态架构、以及基于开源音乐数据和模型进行训练的结果和代码。
Oct, 2023
这篇论文通过对不同组合的Variational Auto-Encoder模型、AI模型的潜在空间配置和训练数据集进行系统研究,表明MeasureVAE在音乐生成性能方面具有更好的重构表现,AdversarialVAE在音乐属性独立性方面表现更好。结果展示了MeasureVAE能够通过可解释的音乐控制维度生成跨音乐流派的音乐,并且在生成简单的流行和摇滚音乐时表现最佳。建议在使用MeasureVAE生成跨流派音乐时,4个正则化维度的32或64个潜在空间尺寸是最佳选择。这些结果是关于音乐生成的最详细的现代生成AI模型配置的比较,并可用于选择和配置AI模型、音乐特征和数据集以实现更易理解的音乐生成。
Nov, 2023
大规模文本到音乐生成模型大大增强了音乐创作能力,但其与人类音乐家有效合作的能力仍然有限。本文提出了一个描述音乐交互过程的框架,包括表达、解释和执行控制。根据这个框架,我们认为现有的文本到音乐模型和音乐家之间的主要差距在于解释阶段,模型缺乏解释音乐家控制的能力。我们还提出了两种策略来解决这个差距,并呼吁音乐信息检索界应对解释挑战,以改善人工智能与音乐家的合作。
Jul, 2024
本研究解决了评价多模态音频语言模型在音乐理解能力方面的挑战,提出了一个名为MuChoMusic的基准,包含了1187个经人类标注的问题,涵盖644首音乐曲目及多种音乐类型。研究发现现有模型过于依赖语言模态,强调了改善多模态集成的必要性。
Aug, 2024
本研究针对基础模型在音乐领域的应用进行全面回顾,指出现有模型在多样化音乐应用中的局限性和未被充分探索的音乐表示。通过深入探讨模型预训练范式及方法,提出了未来研究应关注的生成理解、医疗应用及伦理问题等重要主题,旨在推动人类与AI在音乐领域的合作发展。
本研究填补了音乐领域基础模型(FMs)开发中的空白,强调了音乐表示的不足及其多样应用的局限性。论文提出了一种全面的视角,探讨基础模型在音乐理解、生成和医疗应用中的潜力,并系统分析模型预训练、架构选择和伦理问题。研究的主要发现是促进人机合作发展的重要性,以及未来研究应关注的伦理性和透明性问题。
本研究针对当前音乐信息研究中预训练语言模型在音乐知识评估方面的不足,提出了三种主要问题:提示敏感性、否定建模能力不足及对特定词汇的敏感性。通过使用Audioset本体生成三元组,并评估六种通用Transformer模型的音乐知识,发现尽管准确率相对较高,但模型间存在不一致性,表明必须对现有模型进行音乐方面的适配。
Sep, 2024