多模态大语言模型的模型组合
本综述以数据为中心的视角全面回顾多模态大型语言模型的文献,探索了在多模态数据准备、预训练和适应阶段的方法,分析了数据集的评估方法和评估多模态大型语言模型的基准。此外,本综述还概述了未来的研究方向,以便为研究人员提供对多模态大型语言模型的数据驱动方面的详细理解,推动该领域的进一步探索和创新。
May, 2024
综述了过去一年多模态大型语言模型(MM-LLMs)的进展,提供了对 MM-LLMs 的全面调查,包括模型架构和训练流程的设计概述,介绍了 26 种不同形式的 MM-LLMs,并回顾了其在主流基准上的性能以及提升其效力的关键训练方法,同时探索了 MM-LLMs 领域的前景方向。
Jan, 2024
通过统一的多模态编码器和渐进式多模态对齐管道,OneLLM 将八种模态与语言对齐,以充分发挥其在指令跟随中的潜力;在全面的多模态指令数据集上进行评估,并在多模态字幕生成、问答和推理等任务中展现出优异性能。
Dec, 2023
连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发,目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs,分析了它们的体系结构选择、多模态对齐策略和训练技术。同时,还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外,我们还编译和描述了训练数据集和评估基准,并在性能和计算要求方面对现有模型进行了比较。总体而言,本调查提供了当前最新技术的全面概述,为未来的 MLLMs 奠定了基础。
Feb, 2024
本研究提出了一种新的方法来增强多模式大型语言模型的可解释性,通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合,从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性,使我们能够设计一种新的显著性图以解释任何输出标记,识别模型幻觉,并通过语义对抗扰动评估模型的偏见。
May, 2024
引入了 ModaVerse,一种多模态大型语言模型(MLLM),能够理解和转换图像、视频和音频等不同模态的内容。通过在自然语言层面上进行输入 / 输出对齐,避免了潜在特征对齐的复杂性,简化了现有 MLLM 的多个训练阶段,从而显著降低了数据和计算成本。在多个基准实验中,我们的方法取得与最先进技术相当的性能,同时在数据使用和训练时间上实现了显著的效率提升。
Jan, 2024
本综述论文探讨了多模态大型语言模型(MLLMs),该模型整合了类似于 GPT-4 的大型语言模型(LLMs),用于处理文本和视觉等多模态数据。MLLMs 展示了生成图像叙述和回答基于图像的问题等能力,缩小了人与计算机之间的差距,并暗示了通向人工智能的潜在途径。然而,MLLMs 仍面临处理多模态语义差距的挑战,可能导致错误生成,对社会造成潜在风险。选择适当的模态对齐方法至关重要,因为不恰当的方法可能需要更多参数,并且性能改进有限。该论文旨在探讨 LLMs 的模态对齐方法及其现有能力。实施模态对齐使得 LLMs 能够解决环境问题并提高可访问性。研究调查了 MLLMs 中现有的模态对齐方法,分为四个组:(1)多模态转换器将数据转换为 LLMs 可以理解的格式;(2)多模态感知器改善 LLMs 对不同类型数据的感知能力;(3)工具辅助将数据转换为一种常见格式,通常是文本;以及(4)数据驱动方法教导 LLMs 理解数据集中特定类型的数据。这个领域仍处于探索和试验阶段,我们将组织和更新各种现有的多模态信息对齐研究方法。
Nov, 2023
通过引入 EmoBench 和 EmoLLM,基于多模态大型语言模型的多模态情感理解性能得到显著提升,提供了更深入、更细致的人类情感理解,为人机交互、心理健康支持和共情人工智能系统等领域的应用开发提供了可能。
Jun, 2024
多模态大模型(MLMs)是一个重要的研究重点,通过将强大的大型语言模型与多模态学习相结合,对不同的数据模态执行复杂任务。本文综述了 MLMs 的最新发展和挑战,强调它们在实现人工通用智能和作为世界模型路径中的潜力。我们概述了关键技术,如多模态思维链(M-COT),多模态指导调优(M-IT)和多模态上下文学习(M-ICL)。此外,我们讨论了多模态模型的基本和具体技术,突出了它们的应用、输入 / 输出模态和设计特征。尽管取得了显著进展,但统一的多模态模型的发展仍然困难。我们讨论了整合 3D 生成和具体模拟能力以增强世界模拟能力,并提出整合外部规则系统以改进推理和决策的方法。最后,我们概述了未来的研究方向,以应对这些挑战并推进该领域。
Jun, 2024