Aug, 2023

BLIVA:一个简单的多模态 LLM 用于更好地处理文本丰富的视觉问题

TL;DR通过在语言模型中添加视觉理解能力,BLIVA 能够显著提高处理富含文本的视觉问答任务的性能,并在典型的视觉问答基准上取得了较高的准确率。