Sep, 2024

FullAnno:增强多模态大语言模型图像理解的数据引擎

TL;DR本研究解决了多模态大语言模型(MLLMs)在监督微调阶段对高质量数据的依赖问题。提出的FullAnno系统是一种数据引擎,能够生成大规模、高质量的图像注释,显著提高了数据的精细度与丰富性,实验表明其生成的注释能显著提升LLaVA-v1.5的性能。