AudioBench：一个音频大语言模型通用基准测试

Jun, 2024

AudioBench：一个音频大语言模型通用基准测试

AudioBench: A Universal Benchmark for Audio Large Language Models

Bin Wang, Xunlong Zou, Geyu Lin, Shuo Sun, Zhuohan Liu...

TL;DR通过提供相关数据集和评估指标，我们引入了 AudioBench，这是一个旨在评估语音大型语言模型（AudioLLMs）的新基准。我们在研究中评估了四个模型的能力，并发现没有单一模型在所有任务中都表现出色。我们概述了 AudioLLMs 的研究展望，并预计我们的开源代码、数据和排行榜将为未来模型发展提供一个强大的测试平台。

Abstract

We introduce audiobench, a new benchmark designed to evaluate audio large language models (AudioLLMs). audiobench encompasses 8 distinct tasks and 26 carefully selected or newly curated datasets, focusing on

audiobench audio large language models benchmarks speech understanding evaluation metrics

发现论文，激发创造

AIR-Bench: 大规模音频语言模型的生成理解基准评估

近期，为人 - 音频交互所提出的指令遵循型音频语言模型引起了广泛关注。然而，由于缺乏评估以音频为中心的交互能力的基准，这一领域的发展受阻。本文引入了 AIR-Bench（音频指令评测基准），这是首个旨在评估音频语言模型在理解各种类型音频信号（包括人声、自然声音和音乐）以及在文本格式下与人类互动方面的能力的基准。AIR-Bench 包括两个维度：基础和对话评测。通过实验证明，使用 GPT-4 评估生成的假设得分与人工评估结果之间存在高度一致性。通过评估结果揭示现有 LALMs 的局限性，AIR-Bench 可以为未来研究方向提供启示。

Feb, 2024

Video-Bench：用于评估基于视频的大型语言模型的综合基准和工具包

视频型大型语言模型（Video-LLM）的评估系统是本文提出的主题，通过建立全面的基准测试系统，评估多种任务下的 Video-LLM 能力水平，揭示当前模型在理解和分析真实世界视频方面与人类的差距，提供有价值的研究方向。

Nov, 2023

生成人工智能时代下的大型语言模型评估标准的不足

通过以人、过程和技术为视角，功能性和安全性为支柱，使用我们的统一评估框架，对 23 个最先进的 LLM 基准进行了研究，发现了显著的限制，并强调了在人工智能进步的背景下，标准化方法、监管确定性和伦理指南的迫切需求，以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。

Feb, 2024

音频 - 语言表示学习的大规模数据集

我们提出了一种基于公共工具或 API 的创新型自动音频说明生成流程，并构建了一个大规模、高质量的音频语言数据集 Auto-ACD，其中包含超过 190 万个音频文本对。通过在我们的数据集上训练流行模型并展示在各种下游任务（包括音频语言检索、音频说明和环境分类）上的性能改进，证明了所提出数据集的有效性。此外，我们建立了一个新颖的测试集，并为音频文本任务提供了一个基准。该数据集将在此 https URL 上发布。

Sep, 2023

BIBench：大型语言模型的数据分析知识基准测试

为了评估大型语言模型（LLMs）在商业情报领域中数据分析能力方面的表现，研究引入了 BIBench，一种全面的基准测试。BIBench 评估 LLMs 在商业情报基础知识、知识应用和技术技能三个维度上的能力，并且包含 11 个子任务。另外，研究还开发了 BIChat，一个包含百万个数据点的领域特定数据集，用于对 LLMs 进行优化。通过提供一种对 LLMs 能力进行深入分析的度量标准，BIBench 旨在推动 LLMs 在数据分析领域的发展。

Jan, 2024

AQUALLM：利用大型语言模型生成音频问答数据

这篇研究论文介绍了一种基于大型语言模型的可伸缩的 AQA 数据生成流程 (AQUALLM 框架)，利用现有的音频描述注释并结合最先进的语言模型生成了丰富、高质量的 AQA 数据集，同时提供了三个广泛和高质量的 AQA 基准数据集，该框架和数据集推动了 AQA 研究的进展，并且所训练的模型在性能上优于现有的最先进模型，而且相比人工注释的训练数据，本数据集上训练的模型表现出更强的泛化能力。

Dec, 2023

3DBench：可扩展的 3D 基准测试和指令调优数据集

评估多模态大型语言模型（MLLMs）的性能，集成点云和语言，面临重大挑战。缺乏全面评估阻碍确定这些模型是否真正代表进步，从而妨碍该领域的进一步发展。我们引入了可扩展的 3D 基准测试和大规模指令调整数据集 3DBench，提供了一个全面评估 MLLMs 的可扩展平台，以解决这些问题。该基准测试覆盖了从物体级到场景级的广泛空间和语义范围，涉及感知和规划任务，并且我们提出了一个严格的流程来自动生成可扩展的 3D 指令调整数据集，总共涵盖了 10 个多模态任务，共生成了超过 23 万个问答对。通过对热门 MLLMs 的彻底实验评估、与现有数据集的比较以及训练方案的变异，我们展示了 3DBench 的优越性，为当前的局限性和潜在研究方向提供了有价值的见解。

Apr, 2024

AgentBench: 评估语言模型为代理人

大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力，显示出商业 LLMs 和开源竞争对手之间的性能差距。

Aug, 2023

SCALE：高级语言模型评估复杂度的扩展

该研究引入了一个基于瑞士法律系统的多维 NLP 基准测试，包括长文本处理、领域特定知识拥有、多语言理解、多任务等挑战，该基准测试可以用于测试和推广最先进的 LLMs 模型。

Jun, 2023

MARBLE: 音乐音频表示基准测试用于通用评估

该研究提出使用音乐音频表示基准来提高音乐信息检索任务的性能，包括定义四个层次的综合分类法，并建立了 14 个任务的统一协议。研究表明，最近提出的大规模预训练音乐语言模型在大多数任务中表现最佳。

Jun, 2023