Sep, 2023

连接语音编码器和大型语言模型用于 ASR

TL;DR该论文通过比较研究了三种常用的连接结构,包括全连接层、多头交叉注意力和 Q-Former,并对 Whisper 系列的语音编码器和 Vicuna 系列的大语言模型进行了实验,结果表明基于 Q-Former 的大语言模型相比其他连接结构在 LibriSpeech、Common Voice 和 GigaSpeech 数据集上均取得了一致且显著的词错误率降低。此外,提出了一种新颖的片段级 Q-Former,使大语言模型能够识别超过编码器限制的持续时间的语音片段,在 90 秒长的语音数据上相比其他连接结构取得了 17% 的词错误率降低。