LLaVA-UHD 是一种大型多模态模型,其中包括图像模块化策略、压缩模块和空间模式,它可以高效地感知任何宽高比和高分辨率的图像,并在多个基准测试中优于其他模型。
Mar, 2024
通过将 LLM 作为连接多个专家模型的桥梁,采用 u-LLaVA 方法来解决多模态 LLM 在任务间产生的幻觉和相互干扰问题,该方法有效且简单,并在多个基准测试中获得了最先进的性能。
Nov, 2023
基于图像分辨率的新型多模态大语言模型方法 (LLaVA-HR) 通过采用低分辨率和高分辨率图像特征的组合有效地改善了视觉识别的问题,在 11 个视觉 - 语言任务中表现出比现有模型更好的性能。
该研究论文提出了一种统一的大规模视觉语言模型(LVLM),通过在语言特征空间中统一视觉表示,学习多模态交互,从而在图像和视频基准任务上取得了卓越性能。
本研究提出了混合模态适应方法(MMA),它采用轻量级的适配器模块来搭建 LLMs 和 VL 任务之间的桥梁,实现图像和语言模型的联合优化,同时具有自适应切换单模和多模指令的功能。该方法被应用于 LaBIn 大型视觉语言指导模型,并在两种场景下进行了实验验证,表明其训练效率和性能竞争力均优于现有多模 LLMs,且具有成为通用聊天机器人的潜力。
May, 2023
通过使用 HyperLLaVA 和 HyperNetworks,我们在多模态大型语言模型方面取得了巨大的进展,并在多个基准测试中显著超越了现有的解决方案。
通过引入 pool-adapter 模块,保留视觉嵌入的位置信息,我们的 InfMLLM 方法在图像描述、视觉问题回答和视觉定位等任务中达到了与最新的多模态大语言模型相当或超越的性能。
通过对 LLaVA 进行简单修改,采用 CLIP-ViT-L-336px 与 MLP 投影以及添加面向学术任务的 VQA 数据,我们建立了更强的基线模型,在 11 个基准测试中达到了最新的成果。
Oct, 2023
最近在指导的大型视觉语言模型方面取得的进展,使得模型能够轻松生成高层次的基于图像的解释。然而,我们的工作揭示了这些模型在细粒度的视觉分类方面的缺陷,并且我们提出了一个多粒度属性为中心的评估基准,用于评估大型视觉语言模型的细粒度视觉理解能力并提供显著改进的可解释性。
Feb, 2024
通过 TinyLLaVA 框架的研究与实验,我们发现数据的质量、训练配方和模型选择对于设计和分析小规模的大型多模型模型非常重要;通过将更好的数据质量和更好的训练配方相结合,我们发现较小规模的模型可以与更大规模的模型达到相当的性能,这些发现可为未来的研究提供基准。