通过视觉指导优化的改进基准模型
本研究提出了混合模态适应方法(MMA),它采用轻量级的适配器模块来搭建 LLMs 和 VL 任务之间的桥梁,实现图像和语言模型的联合优化,同时具有自适应切换单模和多模指令的功能。该方法被应用于 LaBIn 大型视觉语言指导模型,并在两种场景下进行了实验验证,表明其训练效率和性能竞争力均优于现有多模 LLMs,且具有成为通用聊天机器人的潜力。
May, 2023
通过调整视觉指导,对开源大型多模态模型进行扩展研究,探索影响多模态和语言能力的变量,发现扩展模型能够提升性能,具有与整个模型微调相当的效果,并强调了提高图像分辨率和混合多模态语言数据对性能的重要性,有时视觉指导可以提高纯语言功能。
Sep, 2023
我们提出一种名为瓶颈适配器的新方法,用于增强复杂模型的多模态功能,并通过多模态模型调整(MMT)的过程实现整个多模态 LLM 框架的联合优化。与传统的模块化训练方案不同,我们的方法采用了端到端优化制度,并结合了适配器,以显著较小的参数集实现联合优化。我们的方法在 90.12%的准确率下展现出强大的性能,超过人类级别的表现(88.4%)和 LaVIN-7B(89.41%)。
Jul, 2024
采用多种视觉特征与语言模型相结合的创新方法 MG-LLaVA,在感知任务中提供了出色的表现,并且超越了相似参数规模的现有模型,具备出色的目标识别能力。
Jun, 2024
通过使用 HyperLLaVA 和 HyperNetworks,我们在多模态大型语言模型方面取得了巨大的进展,并在多个基准测试中显著超越了现有的解决方案。
Mar, 2024
该研究论文以大型多模型为主题,探索了通过特定数据集设计的提示词,使用 LMMs 来执行图像分类任务的功效,并研究了 LLVAs 的零样本学习能力。通过四个不同的数据集的基准分析,实验结果表明模型在 MNIST,Cats Vs. Dogs,Hymnoptera(Ants Vs. Bees)以及 Pox Vs. Non-Pox 皮肤图像等各个数据集上均取得了显著的性能,无需进行任何微调即可达到 85%,100%,77%和 79%的分类准确率。此外,细调后模型在面部照片和自闭症儿童的数据集上分别表现出了显著的改进,强调了 LLVAs 的变革潜力和在现实场景中的多样应用。
Dec, 2023
大语言模型在计算机视觉领域中通过不同的接口机制实现图像字幕和视觉问题回答的任务,通过实验评估各种接口机制和数据集,发现现有机制在多个任务中表现更好,并识别出一种新的接口机制,在不同任务上获得接近最优的结果,并降低了训练时间。
Mar, 2024
通过 TinyLLaVA 框架的研究与实验,我们发现数据的质量、训练配方和模型选择对于设计和分析小规模的大型多模型模型非常重要;通过将更好的数据质量和更好的训练配方相结合,我们发现较小规模的模型可以与更大规模的模型达到相当的性能,这些发现可为未来的研究提供基准。
Feb, 2024
通过使用 LORA 方法,我们提出了使用特定领域的信息数据集进行模型参数微调的方法,我们的研究旨在提高 Video-LLaVA 模型在烹饪视频中生成特定食材列表和详细指导的能力。
Jun, 2024