ACLJun, 2024

大规模语言模型的音乐评估基准:音乐大师还是具有音乐挑战的人

TL;DR我们提出了 ZIQI-Eval,这是一个用于评估大型语言模型音乐相关能力的综合性和大规模的基准测试。我们通过评估 16 个大型语言模型在音乐领域的表现发现,它们在 ZIQI-Eval 基准测试中表现低下,而且存在提升音乐能力的巨大空间。通过 ZIQI-Eval,我们旨在提供一个标准化和强大的评估框架,便于全面评估大型语言模型的音乐相关能力。