基于数据中心视角的高效多模态学习
在这份调研报告中,我们综述了当前高效多模态大语言模型(MLLMs)的研究状况,包括代表性的高效 MLLM 的时间线、高效结构和策略的研究现状以及应用领域。最后,我们讨论了目前高效 MLLM 研究的限制和有前途的未来方向。
May, 2024
最近的多模态大型语言模型 (MLLMs) 在感知图像以及遵循开放性指令方面表现出令人印象深刻的能力。MLLMs 的能力取决于两个关键因素:用于实现视觉模块和大型语言模型特征对齐的模型架构以及用于人类指令跟随的多模态指令调整数据集。本研究发现,紧凑的预训练视觉语言模型天然地可以作为视觉和语言之间 ' 开箱即用 ' 的桥梁。基于此,我们提出了 Muffin 框架,直接使用预训练的视觉语言模型作为视觉信号的提供者。此外,我们还提出了 UniMM-Chat 数据集,探索了数据集之间的补充关系,生成了 1.1M 个高质量而多样化的多模态指令。实验结果表明 Muffin 框架和 UniMM-Chat 数据集的有效性。Muffin 在广泛的视觉语言任务中实现了最先进的性能,显著超过了 LLaVA 和 InstructBLIP 等最先进模型。我们的模型和数据集均可在此链接处访问。
Oct, 2023
在本文中,我们研究了 Multimodal Small Language Models(MSLMs)的设计方面,并提出了一种高效的多模态助手 Mipha,旨在在视觉表示、语言模型和优化策略等各个方面产生协同效应。我们展示了在不增加训练数据量的情况下,我们的 Mipha-3B 在多个基准测试中表现优于最先进的大型 MLLMs,尤其是 LLaVA-1.5-13B。通过详细讨论,我们提供了开发强大的 MSLMs 以与 MLLMs 能力匹敌的见解和指南。
Mar, 2024
通过引入 pool-adapter 模块,保留视觉嵌入的位置信息,我们的 InfMLLM 方法在图像描述、视觉问题回答和视觉定位等任务中达到了与最新的多模态大语言模型相当或超越的性能。
Nov, 2023
通过利用多模态大语言模型(MLLMs)的预训练能力,我们介绍了 RoboLLM 框架以应对 ARMBench 挑战中的视觉感知任务,在实际仓库场景下的大规模机器人操作数据集中,RoboLLM 不仅优于现有基线方法,还大幅减少了模型选择和调优的工作量。
Oct, 2023
我们提出了两种解决多模态模型创建训练数据方面的问题的有效方法,并基于这些方法构建了一个 91K 的英 - 韩 - 中多语言多模态训练数据集,并开发了一种双语多模态模型,在韩语和英语方面表现出优秀的性能,超过了现有方法。
Mar, 2024
通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾,本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用,以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战,并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述,我们揭示了 MM-LLM 在各种应用中的转型潜力。
Mar, 2024
本综述以数据为中心的视角全面回顾多模态大型语言模型的文献,探索了在多模态数据准备、预训练和适应阶段的方法,分析了数据集的评估方法和评估多模态大型语言模型的基准。此外,本综述还概述了未来的研究方向,以便为研究人员提供对多模态大型语言模型的数据驱动方面的详细理解,推动该领域的进一步探索和创新。
May, 2024
提出一种高效的方法,通过调整图像多模态语言模型的图像融合模块,利用图像多模态语言模型的先验知识,实现从图像到视频多模态语言模型的资源高效转换,从而提高视频多模态语言模型的时间理解能力,以更少的数据和资源进行训练。
Apr, 2024