Mar, 2024

超越嵌入:多模型中视觉表格的潜力

TL;DR本研究提出了一种用于多模态大型语言模型的新型视觉表达方法 ——Visual Table,它提供了层次化的视觉场景文本描述,并包括了场景描述和多个以对象为中心的描述,涵盖了类别、属性和实例级别的知识。通过生成的视觉表格作为额外的视觉表示,我们的模型在多个基准测试中始终优于现有最先进的多模态大型语言模型。当视觉表格作为独立的视觉表示时,我们的模型可以与甚至超过基于 CLIP 视觉嵌入的最先进的多模态大型语言模型。