Nov, 2023

Qwen-Audio:通过统一的大规模音频语言模型推进通用音频理解

TL;DR最近,受到广泛关注的指令跟随音频语言模型在音频与人类的交互方面表现出色。然而,缺乏能够处理各种音频类型与任务的预训练音频模型阻碍了该领域的进展。本文通过扩大音频语言预训练的规模,覆盖30多项任务和各种音频类型(如人类语音、自然声音、音乐和歌曲),开发了Qwen-Audio模型,以促进通用音频理解能力。然而,直接同时训练所有任务和数据集可能会引起干扰问题,因为不同数据集的文本标签因任务焦点、语言、注释粒度和文本结构的差异而有相当大的变化。为了克服一对多干扰,我们通过对解码器进行基于层次标签序列的条件设计了一个多任务训练框架,以通过共享和明确的标签来鼓励知识共享和避免干扰。值得注意的是,Qwen-Audio在不需要任何特定任务的微调的情况下,跨多个基准任务取得了令人印象深刻的表现,超过了其对手。借助Qwen-Audio的能力,我们进一步开发了Qwen-Audio-Chat,它可以接受来自不同音频和文本输入的输入,实现多轮对话并支持各种以音频为中心的场景。