May, 2024

LOVA3:学习视觉问答、提问和评估

TL;DR通过引入名为 LOVA3 的创新框架,我们的研究旨在扩展 Multimodal Large Language Models(MLLMs)的能力,包括回答、提问和评估问题,在提高多模态理解能力和性能方面取得了一致的改进。