Jan, 2025
Centurio:大型视觉-语言模型的多语言能力驱动因素
Centurio: On Drivers of Multilingual Ability of Large Vision-Language
Model
TL;DR本研究解决了大型视觉-语言模型(LVLM)在处理非英语输入时的不足。我们通过系统的多阶段实验,提出了优化多语言训练策略的关键洞察,发现可以同时包含多达100种语言进行训练,只需25-50%的非英语数据即可显著提升多语言性能。此外,我们还引入了一项新的基准任务,以提高图像中文本的理解能力,从而推动该领域的发展。