Sep, 2023

连接语音编码器和大型语言模型用于ASR

TL;DR该论文通过比较研究了三种常用的连接结构,包括全连接层、多头交叉注意力和Q-Former,并对Whisper系列的语音编码器和Vicuna系列的大语言模型进行了实验,结果表明基于Q-Former的大语言模型相比其他连接结构在LibriSpeech、Common Voice和GigaSpeech数据集上均取得了一致且显著的词错误率降低。此外,提出了一种新颖的片段级Q-Former,使大语言模型能够识别超过编码器限制的持续时间的语音片段,在90秒长的语音数据上相比其他连接结构取得了17%的词错误率降低。