Jun, 2024

离散 SLU:自我監督的离散语音单元用于口语理解的大型语言模型

TL;DR通过将预训练的基于文本的大型语言模型(LLM)与语音输入集成,我们提出使用离散语音单元(DSU)代替连续值语音编码器输出,通过语音适配器将其转换为 LLM 的标记嵌入空间。我们使用自监督语音编码器后跟 k-means 聚类生成 DSU。所提出的模型在来自可见 / 不可见领域的语音输入上表现出强大的性能,并具有口语问答指令遵循能力。我们还探索了来自自监督语音编码器的不同层以及 Mel 频率倒谱系数(MFCC)提取的各种类型的 DSU。我们的发现表明,在口语问答任务的指令调优中,ASR 任务和数据集并不关键。