Aug, 2024

迷你全能:语言模型在语音流中思考时可以听、说

TL;DR本研究解决了当前语言模型在实时语音交互中的不足,提出了一种全新的音频端到端对话模型Mini-Omni。通过创新的文本指导语音生成方法和批量并行策略,该模型实现了实时语音交互,并在保持语言能力的基础上显著降低延迟,具有重要的研究潜力。