AudioBench:一个音频大语言模型通用基准测试
近期,为人 - 音频交互所提出的指令遵循型音频语言模型引起了广泛关注。然而,由于缺乏评估以音频为中心的交互能力的基准,这一领域的发展受阻。本文引入了 AIR-Bench(音频指令评测基准),这是首个旨在评估音频语言模型在理解各种类型音频信号(包括人声、自然声音和音乐)以及在文本格式下与人类互动方面的能力的基准。AIR-Bench 包括两个维度:基础和对话评测。通过实验证明,使用 GPT-4 评估生成的假设得分与人工评估结果之间存在高度一致性。通过评估结果揭示现有 LALMs 的局限性,AIR-Bench 可以为未来研究方向提供启示。
Feb, 2024
视频型大型语言模型(Video-LLM)的评估系统是本文提出的主题,通过建立全面的基准测试系统,评估多种任务下的 Video-LLM 能力水平,揭示当前模型在理解和分析真实世界视频方面与人类的差距,提供有价值的研究方向。
Nov, 2023
通过以人、过程和技术为视角,功能性和安全性为支柱,使用我们的统一评估框架,对 23 个最先进的 LLM 基准进行了研究,发现了显著的限制,并强调了在人工智能进步的背景下,标准化方法、监管确定性和伦理指南的迫切需求,以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。
Feb, 2024
我们提出了一种基于公共工具或 API 的创新型自动音频说明生成流程,并构建了一个大规模、高质量的音频语言数据集 Auto-ACD,其中包含超过 190 万个音频文本对。通过在我们的数据集上训练流行模型并展示在各种下游任务(包括音频语言检索、音频说明和环境分类)上的性能改进,证明了所提出数据集的有效性。此外,我们建立了一个新颖的测试集,并为音频文本任务提供了一个基准。该数据集将在此 https URL 上发布。
Sep, 2023
为了评估大型语言模型(LLMs)在商业情报领域中数据分析能力方面的表现,研究引入了 BIBench,一种全面的基准测试。BIBench 评估 LLMs 在商业情报基础知识、知识应用和技术技能三个维度上的能力,并且包含 11 个子任务。另外,研究还开发了 BIChat,一个包含百万个数据点的领域特定数据集,用于对 LLMs 进行优化。通过提供一种对 LLMs 能力进行深入分析的度量标准,BIBench 旨在推动 LLMs 在数据分析领域的发展。
Jan, 2024
这篇研究论文介绍了一种基于大型语言模型的可伸缩的 AQA 数据生成流程 (AQUALLM 框架),利用现有的音频描述注释并结合最先进的语言模型生成了丰富、高质量的 AQA 数据集,同时提供了三个广泛和高质量的 AQA 基准数据集,该框架和数据集推动了 AQA 研究的进展,并且所训练的模型在性能上优于现有的最先进模型,而且相比人工注释的训练数据,本数据集上训练的模型表现出更强的泛化能力。
Dec, 2023
评估多模态大型语言模型(MLLMs)的性能,集成点云和语言,面临重大挑战。缺乏全面评估阻碍确定这些模型是否真正代表进步,从而妨碍该领域的进一步发展。我们引入了可扩展的 3D 基准测试和大规模指令调整数据集 3DBench,提供了一个全面评估 MLLMs 的可扩展平台,以解决这些问题。该基准测试覆盖了从物体级到场景级的广泛空间和语义范围,涉及感知和规划任务,并且我们提出了一个严格的流程来自动生成可扩展的 3D 指令调整数据集,总共涵盖了 10 个多模态任务,共生成了超过 23 万个问答对。通过对热门 MLLMs 的彻底实验评估、与现有数据集的比较以及训练方案的变异,我们展示了 3DBench 的优越性,为当前的局限性和潜在研究方向提供了有价值的见解。
Apr, 2024
大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力,显示出商业 LLMs 和开源竞争对手之间的性能差距。
Aug, 2023
该研究引入了一个基于瑞士法律系统的多维 NLP 基准测试,包括长文本处理、领域特定知识拥有、多语言理解、多任务等挑战,该基准测试可以用于测试和推广最先进的 LLMs 模型。
Jun, 2023
该研究提出使用音乐音频表示基准来提高音乐信息检索任务的性能,包括定义四个层次的综合分类法,并建立了 14 个任务的统一协议。研究表明,最近提出的大规模预训练音乐语言模型在大多数任务中表现最佳。
Jun, 2023