Oct, 2023

SALMONN:面向大型语言模型的通用听力能力

TL;DRSALMONN 是一种语音音频语言音乐开放神经网络模型,集成了预训练的大型语言模型、语音和音频编码器,使得语言模型能够直接处理和理解一般音频输入,并在多项训练任务中取得竞争性表现。SALMONN 还具备多种未在训练中出现的跨模态新兴能力,并提出了一种新颖的少样本激活调整方法来激活该模型的这些能力,因此可以被视为具有通用听觉能力的人工智能的一大进展。