Oct, 2024

Ichigo:混合模态早期融合实时语音助手

TL;DR本研究解决了大语言模型在语音任务中的局限,提出了Ichigo这一混合模态模型,利用早期融合的方法处理语音与文本的交替序列。研究表明,Ichigo在语音问答基准测试中表现优越,不仅显著减少了延迟,还为小型研究团队在开源语音语言模型领域的贡献提供了新的框架。