大规模语言模型的音乐评估基准：音乐大师还是具有音乐挑战的人

ACLJun, 2024

大规模语言模型的音乐评估基准：音乐大师还是具有音乐挑战的人

The Music Maestro or The Musically Challenged, A Massive Music Evaluation Benchmark for Large Language Models

Jiajia Li, Lu Yang, Mingni Tang, Cong Chen, Zuchao Li...

TL;DR我们提出了 ZIQI-Eval，这是一个用于评估大型语言模型音乐相关能力的综合性和大规模的基准测试。我们通过评估 16 个大型语言模型在音乐领域的表现发现，它们在 ZIQI-Eval 基准测试中表现低下，而且存在提升音乐能力的巨大空间。通过 ZIQI-Eval，我们旨在提供一个标准化和强大的评估框架，便于全面评估大型语言模型的音乐相关能力。

Abstract

benchmark plays a pivotal role in assessing the advancements of large language models (LLMs). While numerous benchmarks have been proposed to evaluate LLMs' capabilities, there is a notable absence of a dedicated benchm

benchmark large language models ziqi-eval music-related capabilities evaluation framework

发现论文，激发创造

逐九：为大型语言模型提供的多维多面的中文基准测试

大语言模型的综合性和准确性评估需要全面而系统的基准。为此，我们提出了 ZhuJiu 基准，具有综合评估大语言模型的多维能力覆盖，多方面合作评估方法，全面的中文基准以及避免潜在数据泄漏的特点。我们对 10 个当前主流大语言模型进行了评估，并对结果进行了深入的讨论和分析。

Aug, 2023

EQ-Bench: 大型语言模型的情绪智能基准

我们介绍了 EQ-Bench，这是一个旨在评估大型语言模型（LLM）中情绪智能方面的新型基准。我们通过要求 LLMs 预测对话中角色的情绪状态的强度来评估 LLMs 理解复杂情绪和社交互动的能力。该基准能够有效地区分多种模型，与综合多领域基准（如 MMLU）强相关（r=0.97），这表明我们可能捕捉到了广泛智能的类似方面。我们的基准使用 60 个英语问题集生成高度可重复的结果。我们还提供了一个自动化基准测试流水线的开源代码以及一个排行榜。

Dec, 2023

AudioBench：一个音频大语言模型通用基准测试

通过提供相关数据集和评估指标，我们引入了 AudioBench，这是一个旨在评估语音大型语言模型（AudioLLMs）的新基准。我们在研究中评估了四个模型的能力，并发现没有单一模型在所有任务中都表现出色。我们概述了 AudioLLMs 的研究展望，并预计我们的开源代码、数据和排行榜将为未来模型发展提供一个强大的测试平台。

Jun, 2024

ChatMusician：理解和生成音乐的 LLM 方法

我们介绍了 ChatMusician，这是一个开源的大型语言模型，基于在 ABC 符号表示和音乐作为第二语言上进行连续预训练和微调的 LLaMA2，它能够理解和生成音乐，并能够创作结构良好、完整的音乐作品，超过了 GPT-4 基准模型。

Feb, 2024

生成人工智能时代下的大型语言模型评估标准的不足

通过以人、过程和技术为视角，功能性和安全性为支柱，使用我们的统一评估框架，对 23 个最先进的 LLM 基准进行了研究，发现了显著的限制，并强调了在人工智能进步的背景下，标准化方法、监管确定性和伦理指南的迫切需求，以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。

Feb, 2024

EmoBench: 评估大型语言模型的情绪智能

通过建立 EmoBench 基准测试，我们揭示了大型语言模型与普通人之间在情感智能方面的显著差距，为未来研究提供了有希望的方向。

Feb, 2024

MuChin：评估音乐领域语言模型的中国口语描述基准

MuChin 是第一个用于评估多模态大型语言模型在理解和描述音乐方面性能的中文口语音乐描述基准，利用创新的多人、多阶段保障方法和多维、高精度的音乐注释数据集 (CaiMD)，使用 MuChin 评估现有音乐理解模型对于提供口语音乐描述的能力，并开源相关数据和评分代码。

Feb, 2024

PsyEval：一种用于精神健康领域的综合大型语言模型评估基准

目前缺乏对大型语言模型（LLMs）在心理健康领域能力评估的全面基准。因此，我们填补该空白，并引入了首个适用于心理健康领域特点的全面基准，包括六个子任务、三个维度，系统评估 LLMs 在心理健康领域的能力。我们为每个子任务设计了相应的简明提示，并全面评估了八个先进的 LLMs 使用我们的基准。实验结果不仅展示了当前 LLMs 在心理健康方面的改进空间，还揭示了未来模型优化的潜在方向。

Nov, 2023

E-EVAL：大型语言模型的全面中国 K-12 教育评估基准

通过介绍首个专为中国 K-12 教育领域设计的综合评估基准 E-EVAL，针对 LLM 在该领域的各种能力提供准确评估。E-EVAL 由 4,351 道初、中、高级别的选择题组成，并涵盖语文、英语、政治、历史、伦理、物理、化学、数学和地理等多个学科。研究发现，中文优先的模型相比于英文优先的模型表现良好，其中许多模型的得分甚至超过了 GPT 4.0。然而，几乎所有模型在数学等复杂科目上表现不佳。大部分中文优先的 LLM 在小学阶段的得分并不高于中学阶段的得分。同时，研究结果还表明，思维链技术（CoT）仅在具有挑战性的科学学科上有效，而一键提示对于文科学科更加有益。通过 E-EVAL，旨在分析 LLM 在教育应用中的优势和局限，推动中国 K-12 教育和 LLM 的进步与发展。

Jan, 2024

AIR-Bench: 大规模音频语言模型的生成理解基准评估

近期，为人 - 音频交互所提出的指令遵循型音频语言模型引起了广泛关注。然而，由于缺乏评估以音频为中心的交互能力的基准，这一领域的发展受阻。本文引入了 AIR-Bench（音频指令评测基准），这是首个旨在评估音频语言模型在理解各种类型音频信号（包括人声、自然声音和音乐）以及在文本格式下与人类互动方面的能力的基准。AIR-Bench 包括两个维度：基础和对话评测。通过实验证明，使用 GPT-4 评估生成的假设得分与人工评估结果之间存在高度一致性。通过评估结果揭示现有 LALMs 的局限性，AIR-Bench 可以为未来研究方向提供启示。

Feb, 2024