Jun, 2024

GAMA: 具有先进音频理解和复杂推理能力的大型音频语言模型

TL;DR提出了 GAMA(一种新型通用大型音频语言模型)来解决非语音声音和非语言言语的感知和理解问题。通过集成 LLM 与多种音频表示形式以及利用合成生成的指令调节数据集对其进行训练,实现了音频理解和复杂推理的能力。通过自动化和专家评估,表明 GAMA 在各种音频理解任务中表现优于文献中其他 LALM 模型,具有 1%-84% 的优势。