MuChoMusic：评估多模态音频语言模型中的音乐理解

Aug, 2024

MuChoMusic：评估多模态音频语言模型中的音乐理解

MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models

Benno Weck, Ilaria Manco, Emmanouil Benetos, Elio Quinton, George Fazekas...

TL;DR本研究解决了评价多模态音频语言模型在音乐理解能力方面的挑战，提出了一个名为MuChoMusic的基准，包含了1187个经人类标注的问题，涵盖644首音乐曲目及多种音乐类型。研究发现现有模型过于依赖语言模态，强调了改善多模态集成的必要性。

Abstract

Multimodal Models that jointly process audio and language hold great promise in audio understanding and are increasingly being adopted in the music domain. By allowing users to query via text and obtain information about a given audio input, these models have the potential to enable a

发现论文，激发创造

MusiLingo：使用预训练语言模型在音乐字幕和查询响应中连接音乐和文本

MusiLingo是一个创新系统，通过使用单个投射层将来自预训练的冻结音乐音频模型MERT和冻结的LLaMA语言模型中的音乐表示对齐，弥合了音乐音频和文本环境之间的差距，从而在音乐字幕生成和音乐相关的查询响应中展现了竞争性能。

Sep, 2023

LLark: 一个用于音乐的多模态基础模型

音乐理解和LLark的多模态模型的数据集创建、多模态架构、以及基于开源音乐数据和模型进行训练的结果和代码。

Oct, 2023

MuChin：评估音乐领域语言模型的中国口语描述基准

MuChin是第一个用于评估多模态大型语言模型在理解和描述音乐方面性能的中文口语音乐描述基准，利用创新的多人、多阶段保障方法和多维、高精度的音乐注释数据集(CaiMD)，使用MuChin评估现有音乐理解模型对于提供口语音乐描述的能力，并开源相关数据和评分代码。

Feb, 2024

大规模语言模型的音乐评估基准：音乐大师还是具有音乐挑战的人

我们提出了ZIQI-Eval，这是一个用于评估大型语言模型音乐相关能力的综合性和大规模的基准测试。我们通过评估16个大型语言模型在音乐领域的表现发现，它们在ZIQI-Eval基准测试中表现低下，而且存在提升音乐能力的巨大空间。通过ZIQI-Eval，我们旨在提供一个标准化和强大的评估框架，便于全面评估大型语言模型的音乐相关能力。

Jun, 2024

音乐的基础模型：一项调查

本研究针对基础模型在音乐领域的应用进行全面回顾，指出现有模型在多样化音乐应用中的局限性和未被充分探索的音乐表示。通过深入探讨模型预训练范式及方法，提出了未来研究应关注的生成理解、医疗应用及伦理问题等重要主题，旨在推动人类与AI在音乐领域的合作发展。

Aug, 2024

音乐的基础模型：一项综述

本研究探讨了基础模型在音乐领域的应用，指出当前研究中对音乐表示的开发仍有许多未被探索的方面。通过全面分析预训练模型和架构选择，强调了基础模型在音乐理解、生成和医疗应用中的潜力。研究还关注伦理考量的重要性，为未来音乐领域的人机协作提供了方向。

Aug, 2024

大型语言模型在音乐学中的角色：我们是否准备好信任机器？

本研究探讨了大型语言模型在音乐学中的应用及其可靠性，针对专家和学生的讨论评估了这一技术的接受度和关注点。我们提出了一种半自动方法，通过提取增强生成模型和多项选择题生成创建初步基准，并由人类专家验证，发现当前常规大型语言模型在可靠性上逊色于基于音乐词典的检索增强生成。

Sep, 2024

音乐LIME：可解释的多模态音乐理解

本研究针对多模态音乐模型的可解释性问题，提出了MusicLIME这一模型不可知的特征重要性解释方法。与传统单模态方法不同，MusicLIME能够揭示音频和歌词特征如何相互作用并影响预测结果，提升了多模态音乐模型的可解读性，助力用户做出更明智的选择，并推动更加公平和透明的音乐理解系统的发展。

Sep, 2024

音乐理解基础模型的调研

本研究解决了传统音乐分析模型无法有效捕捉音乐复杂特征的问题，提出了利用大型语言模型和基础模型的方法来实现更深入的音乐理解。研究发现，这些模型在语义层面处理复杂音乐理解任务时表现出色，具有接近人类感知的能力，推动了音乐与人工智能交叉领域的深入研究。

Sep, 2024

预训练语言模型在音乐理解中的评估

本研究针对当前音乐信息研究中预训练语言模型在音乐知识评估方面的不足，提出了三种主要问题：提示敏感性、否定建模能力不足及对特定词汇的敏感性。通过使用Audioset本体生成三元组，并评估六种通用Transformer模型的音乐知识，发现尽管准确率相对较高，但模型间存在不一致性，表明必须对现有模型进行音乐方面的适配。

Sep, 2024