Sep, 2024

提升音频语言模型在低资源语言和指令遵循能力上的表现

TL;DR本研究解决了音频语言模型在低资源语言(如泰语)中的表现不足问题,指出尽管基于多语种基础构建,但现有模型在低资源语言上缺乏跨语言能力。研究提出了一种数据混合的方法,该方法将音频理解与语音指令遵循能力整合到一个统一模型中,实验结果显示Typhoon-Audio在英语和泰语上的表现显著优于传统开源模型,接近行业领先的Gemini-1.5-Pro。