多模型大语言模型中的灾难性遗忘研究

Sep, 2023

多模型大语言模型中的灾难性遗忘研究

Investigating the Catastrophic Forgetting in Multimodal Large Language Models

Yuexiang Zhai, Shengbang Tong, Xiao Li, Mu Cai, Qing Qu...

TL;DR通过将多模态大型语言模型（MLLM）视为图像分类器，并引入 EMT（用于评估 MLLM 中的灾难性遗忘）来评估现有的 MLLM 并检测到 fine-tuning 在图像分类任务上性能下降的问题。研究发现，几乎所有评估的 MLLM 在标准图像分类任务上都无法保持与视觉编码器相同的性能水平，并且尽管初期 fine-tuning 可以提高在其他图像数据集上的性能，但随着 fine-tuning 的进行，MLLM 开始产生幻觉，并导致了显著的泛化能力损失。因此，MLLM 在标准图像分类任务上的性能仍有待提高。

Abstract

Following the success of GPT4, there has been a surge in interest in multimodal large language model (MLLM) research. This line of research focuses on developing general-purpose LLMs through fine-tuning pre-train

multimodal large language model catastrophic forgetting emt fine-tuning image classifier

发现论文，激发创造

模型个性化：多模态大型语言模型中缓解灾难性遗忘

该论文介绍了多模态大型语言模型（MLLMs）中灾难性遗忘现象的全面分析，并引入了一种名为 Model Tailor 的后训练调整方法。该方法主要保留了预训练参数，同时替换了少量（≤ 10%）的微调参数，相比于预训练，在原始任务上保持了约 99% 的有效性，并在新任务上相比标准微调获得了约 97% 的有效性。此外，该方法适用于多任务场景，并通过在 InstructBLIP 和 LLaVA-1.5 上进行广泛实验证明了显著的任务适应能力，同时保持了内在的预训练能力。

Feb, 2024

大型语言模型在连续微调中的灾难性遗忘的实证研究

大型语言模型在不断微调的过程中存在灾难性遗忘现象，尤其随着规模的增加，遗忘的严重程度也加剧，然而通过单独解码器模型 BLOOMZ 与编码器 - 解码器模型 mT0 的比较，发现 BLOOMZ 遗忘较少且保留更多知识，还观察到语言模型能够在不断微调中缓解语言偏见，同时通用指令微调有助于减轻大型语言模型在进一步微调过程中的遗忘现象。

Aug, 2023

融入视觉专家解决多模态大语言模型中的信息损失

这篇论文提出了一种通过专家混合知识增强机制来改善多模态大型语言模型 (MLLMs) 的视觉感知能力的方法，并通过集成视觉专家实现了视觉输入的更全面准确的概括，进一步提升了 MLLMs 的视觉感知能力。

Jan, 2024

从多模态输入中获取语言知识

利用 FLAVA 模型进行消融研究，独立变化文本和视觉输入量，发现多模态预训练既不损害模型的语言性能，也没有一致的帮助作用；然而，由于实验规模有限，这些结论还不完全确定，需要更好的架构和多模态训练技术来验证多模态输入对语言模型和人类数据效率差距的假设。

Feb, 2024

多模态语言模型的性能评估

该研究分析了不同的多模态指导调优方法，并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能，揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解，但当前方法存在局限性，未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题，这些发现阐明了适应图像理解的语言模型的现有方法学限制，并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。

Oct, 2023

多模式大型语言模型综述

本文旨在追踪和总结 MLLM 的最新进展，包括 MLLM 的公式，技术和应用，以及现有的挑战和有前途的研究方向。

Jun, 2023

MM1: 多模态 LLM 预训练的方法、分析与洞察

讨论构建出色的多模态大型语言模型的重要组成部分和数据选择，通过仔细和全面的分析，证明了使用图像 - 标题、交错图像 - 文本和仅文本数据进行大规模多模态预训练对于在多个基准测试中实现最新成果至关重要。通过扩展所提出的模型，构建了以稠密模型和专家混合模型为特征的 MM1 系列多模态模型，这些模型在预训练指标上取得最新成果，并在一系列已建立的多模态基准测试中实现了有竞争力的性能。

Mar, 2024

多模态大型语言和视觉模型综述

通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾，本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用，以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战，并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述，我们揭示了 MM-LLM 在各种应用中的转型潜力。

Mar, 2024

EmoLLM：多模态情感理解与大型语言模型

通过引入 EmoBench 和 EmoLLM，基于多模态大型语言模型的多模态情感理解性能得到显著提升，提供了更深入、更细致的人类情感理解，为人机交互、心理健康支持和共情人工智能系统等领域的应用开发提供了可能。

Jun, 2024

分析多模态大型语言模型的视觉感知

本研究提出了一种新的方法来增强多模式大型语言模型的可解释性，通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合，从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性，使我们能够设计一种新的显著性图以解释任何输出标记，识别模型幻觉，并通过语义对抗扰动评估模型的偏见。

May, 2024