Nov, 2024

Freeze-Omni:一种智能低延迟的语音到语音对话模型,采用冻结式大型语言模型

TL;DR本研究针对语音到语音对话模型的训练困难,提出了一种名为Freeze-Omni的语音文本多模态大语言模型架构。该模型在训练过程中保持大语言模型冻结,通过三阶段训练策略有效实现了低延迟的自然对话能力,创新性地避免了由于数据不足而导致的灾难性遗忘问题。