LLaVA-Gemma：利用紧凑的语言模型加速多模基础模型

Mar, 2024

LLaVA-Gemma：利用紧凑的语言模型加速多模基础模型

LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model

Musashi Hinck, Matthew L. Olson, David Cobbley, Shao-Yen Tseng, Vasudev Lal

TL;DR我们使用近期发布的 Gemma 系列大型语言模型（LLMs）在流行的 LLaVA 框架中训练了一套多模态基础模型（MMFM）。我们测试了删除三个设计特征对模型性能的影响，并对性能进行了深入分析。最终的 LLaVA-Gemma 模型在多项评估中表现适中，但未能超越当前规模相当的 SOTA 模型。

Abstract

We train a suite of multimodal foundation models (MMFM) using the popular LLaVA framework with the recently released Gemma family of large language models (LLMs). Of particular interest is the 2B parameter gemma model

multimodal foundation models gemma model ablating design features performance analysis llava-gemma

发现论文，激发创造

TinyLLaVA：一个小规模大型多模态模型的框架

通过 TinyLLaVA 框架的研究与实验，我们发现数据的质量、训练配方和模型选择对于设计和分析小规模的大型多模型模型非常重要；通过将更好的数据质量和更好的训练配方相结合，我们发现较小规模的模型可以与更大规模的模型达到相当的性能，这些发现可为未来的研究提供基准。

Feb, 2024

Gemma：基于 Gemini 研究和技术的开放模型

Gemma 是一种轻量级的、最先进的开放模型系列，从用于创建 Gemini 模型的研究和技术中构建而来。Gemma 模型在语言理解、推理和安全性等学术基准测试中表现出强大的性能。我们发布了两个规模的模型（20 亿和 70 亿参数），并提供预训练和微调的检查点。Gemma 在 18 个基于文本的任务中，有 11 个任务优于类似规模的开放模型。我们全面评估了模型的安全性和责任方面，同时详细描述了模型的开发过程。我们认为，负责任地发布 LLM 对于提高前沿模型的安全性，并推动 LLM 的下一波创新至关重要。

Mar, 2024

基于数据中心视角的高效多模态学习

通过探索更加信息丰富的训练数据，本文演示了击败规模定律并训练出更小但更强大的轻量级多模态大语言模型 Bunny，其背后利用了灵活的视觉和语言基础模块进行高效的多模态学习。

Feb, 2024

Cheap and Quick: 大型语言模型高效的视觉语言指导调整

本研究提出了混合模态适应方法（MMA），它采用轻量级的适配器模块来搭建 LLMs 和 VL 任务之间的桥梁，实现图像和语言模型的联合优化，同时具有自适应切换单模和多模指令的功能。该方法被应用于 LaBIn 大型视觉语言指导模型，并在两种场景下进行了实验验证，表明其训练效率和性能竞争力均优于现有多模 LLMs，且具有成为通用聊天机器人的潜力。

May, 2023

阿姆哈拉语 LLaMA 和 LLaVA：低资源语言的多模态 LLMs

使用数据扩充方法，我们训练了一个多模态的阿姆哈拉语大型语言模型 (LLM)，并引入了一个用于评估的阿姆哈拉语版本的基准数据集。

Mar, 2024

基于 Adapter 微调的多模态生成模型增强方法 MAGMA

通过适配器微调的方法，将额外的模态结合到生成式语言模型中用于预训练，实现一个端到端的单一语言建模目标，从而取得了在开放式生成任务和多个流行 VL 基准测试上的最先进结果，同时只使用了 SimVLM 用于训练的样本数量的 0.2%。

Dec, 2021

通过视觉指导优化的改进基准模型

通过对 LLaVA 进行简单修改，采用 CLIP-ViT-L-336px 与 MLP 投影以及添加面向学术任务的 VQA 数据，我们建立了更强的基线模型，在 11 个基准测试中达到了最新的成果。

Oct, 2023

X-LLaVA: 优化双语大型视觉语言对齐

我们提出了两种解决多模态模型创建训练数据方面的问题的有效方法，并基于这些方法构建了一个 91K 的英 - 韩 - 中多语言多模态训练数据集，并开发了一种双语多模态模型，在韩语和英语方面表现出优秀的性能，超过了现有方法。

Mar, 2024

u-LLaVA: 通过大型语言模型统一多模态任务

通过将 LLM 作为连接多个专家模型的桥梁，采用 u-LLaVA 方法来解决多模态 LLM 在任务间产生的幻觉和相互干扰问题，该方法有效且简单，并在多个基准测试中获得了最先进的性能。

Nov, 2023

HyperLLaVA：基于动态视觉和语言专家调整的多模态大型语言模型

通过使用 HyperLLaVA 和 HyperNetworks，我们在多模态大型语言模型方面取得了巨大的进展，并在多个基准测试中显著超越了现有的解决方案。

Mar, 2024