Jun, 2024

混合监督语音处理的预训练大型语言模型的离散多模态变换器

TL;DR本文介绍了一种仅有解码器的离散多模态语言模型(DMLM),可以灵活应用于多个任务(ASR,T2S,S2TT 等)和模态(文本,语音,视觉),并探索了离散多模态模型的几个关键方面,包括损失函数、权重初始化、混合监督训练和码本。结果表明,通过组合监督和无监督训练,DMLM 在多个任务和数据集上显著受益。此外,对于 ASR,它从预训练的大型语言模型(LLM)和由 Whisper 激活导出的码本中受益。