Nov, 2024
Freeze-Omni:一种智能低延迟的语音到语音对话模型,采用冻结式大型语言模型
Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model
with Frozen LLM
TL;DR本研究针对语音到语音对话模型的训练困难,提出了一种名为Freeze-Omni的语音文本多模态大语言模型架构。该模型在训练过程中保持大语言模型冻结,通过三阶段训练策略有效实现了低延迟的自然对话能力,创新性地避免了由于数据不足而导致的灾难性遗忘问题。