Feb, 2024

AIR-Bench: 大规模音频语言模型的生成理解基准评估

TL;DR近期,为人 - 音频交互所提出的指令遵循型音频语言模型引起了广泛关注。然而,由于缺乏评估以音频为中心的交互能力的基准,这一领域的发展受阻。本文引入了 AIR-Bench(音频指令评测基准),这是首个旨在评估音频语言模型在理解各种类型音频信号(包括人声、自然声音和音乐)以及在文本格式下与人类互动方面的能力的基准。AIR-Bench 包括两个维度:基础和对话评测。通过实验证明,使用 GPT-4 评估生成的假设得分与人工评估结果之间存在高度一致性。通过评估结果揭示现有 LALMs 的局限性,AIR-Bench 可以为未来研究方向提供启示。