Nov, 2024

多模态大语言模型的统一生成与判别训练

TL;DR本研究针对现有视觉语言模型面临的生成与判别训练各自的局限性,提出了一种统一的方法,整合了两种训练模式的优势。通过引入结构诱导训练策略和动态时间规整框架,我们的方法显著提升了多模态大语言模型对全局语义和细粒度语义的捕捉能力,实验证明该方法在多项生成任务上实现了最新的成果,尤其在认知与区分能力要求较高的任务中表现优异。