MiniGPT-5：基于生成 Vokens 的交叉视觉与语言生成

Oct, 2023

MiniGPT-5：基于生成 Vokens 的交叉视觉与语言生成

MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens

Kaizhi Zheng, Xuehai He, Xin Eric Wang

TL;DR分阶段训练方法和生成 vokens 提高大型语言模型在视觉和语言生成方面的效果。

Abstract

large language models (LLMs) have garnered significant attention for their advancements in natural language processing, demonstrating unparalleled prowess in text comprehension and generation. Yet, the simultaneous generation of images with coherent textual narratives remains an evolvi

large language models vision-and-language generation generative vokens multimodal generation minigpt-5

发现论文，激发创造

MiniGPT-4: 借助先进的大型语言模型增强视觉 - 语言理解

本文介绍了 MiniGPT-4 模型，该模型利用像 GPT-4 这样的先进的大型语言模型（LLM）与视觉编码器对齐，可以生成详细的图像描述和从手写草图中创建网站等多重能力，采用对齐的图文数据集训练可以提高生成的可靠性和整体可用性。

Apr, 2023

MiniGPT4-Video: 提升多模态 LLM 在视频理解中的能力：交错的视觉 - 文本标记

这篇论文介绍了 MiniGPT4-Video，一种用于视频理解的多模态大型语言模型。该模型能够处理时间视觉和文本数据，从而能够理解视频的复杂性。通过扩展 MiniGPT-v2 模型的能力，该模型能够处理连续的视频帧序列，使其能够理解视频。MiniGPT4-Video 不仅考虑了视觉内容，还结合了文本对话，使得该模型能够有效地回答涉及视觉和文本组成部分的问题。所提出的模型在 MSVD、MSRVTT、TGIF 和 TVQA 基准测试上的性能优于现有的最先进方法，分别提升了 4.22%、1.13%、20.82% 和 13.1%。我们的模型和代码在此网址 https URL 中公开提供。

Apr, 2024

MiniGPT-v2：大型语言模型作为视觉语言多任务学习的统一接口

利用 MiniGPT-v2 建立一个统一的界面，有效地处理各种视觉 - 语言任务，包括图像描述、视觉问答和视觉定位等，并通过使用唯一标识符提高模型在每个任务中的学习效率。

Oct, 2023

VL-GPT：用于视觉与语言理解与生成的生成式预训练 Transformer 模型

VL-GPT 是一种同时感知和生成视觉和语言数据的变压器模型，通过采用直观的自回归目标，实现了图像和文本两种模态的统一预训练方法，从而使模型可以像处理文本一样无缝地处理图像和文本。预训练完成后，VL-GPT 在包括图像字幕生成、视觉问答、文本到图像生成等多样的视觉和语言理解以及生成任务中表现出了令人瞩目的零样本和少样本性能。

Dec, 2023

Mini-Gemini: 挖掘多模视觉语言模型的潜力

通过引入 Mini-Gemini 框架，本论文旨在提升多模视觉语言模型（VLMs）的性能，尤其关注高分辨率视觉标记、高质量数据和 VLM 引导生成等方面，进一步挖掘了 VLMs 的潜力，使其能够同时支持图像理解、推理和生成。

Mar, 2024

SimVLG: 简单高效的视觉语言生成模型预训练

本文提出了 “SimVLG”—— 一种用于预训练计算密集型视觉语言生成模型的简化框架，利用冻结的预训练大型语言模型 (LLMs)。我们的单阶段单损失框架通过在训练过程中逐渐合并相似的视觉标记来绕过计算密集型的初始训练阶段，从而实现了快速收敛而不损失性能。实验证明，我们的方法可以将视觉语言模型的训练速度提高 5 倍，而整体性能几乎没有明显影响。此外，我们展示了我们的模型只需原数据的十分之一即可达到与当前视觉语言模型相当的性能。最后，我们通过一种新颖的软性注意力时序标记合并模块展示了如何轻松将我们的图像 - 文本模型应用于视频 - 语言生成任务。

Oct, 2023

动态离散视觉标记的统一语言 - 视觉预训练

最近，大型语言模型的显著进展激发了研究人员将其非凡的推理能力转移到多个模态的数据上。本文通过在统一的表示中同时表达视觉和语言，突破了仅以视觉内容作为提示并专注于优化文本生成过程的限制。通过一个将非语言图像转换为 LLM 可以阅读的一系列离散标记的视觉分词器，LaVIT (Language-VIsion Transformer) 可以在统一的生成学习范式下无差别地处理图像和文本。在网上规模图像 - 文本语料库上预训练的 LaVIT 具有令人印象深刻的多模态理解能力。广泛的实验表明，它在下游任务上的性能超过现有模型很多。我们的代码和模型将在此 https URL 上提供。

Sep, 2023

赋能视觉语言模型来遵循交替视觉语言指令

综合评估了多模态大型语言模型的指导遵循能力，并引入了 I4 基准测试，提出了一种智能控制知识重新注入模块和无标注跨注意力引导的反事实图像训练策略，从而实现了在复杂的纷繁视觉语言指令中有效处理的新型多模态大型语言模型 Cheetah，达到了 I4 中所有任务的零样本表现的最新水平，并与当前 MME 基准的最新指导优化模型相比具有竞争力的性能。

Aug, 2023

LMMs 初探：与 GPT-4V (ision) 的初步探索

通过分析最新的模型 GPT-4V，我们深入了解大型多模态模型（LMMs）的能力和特点，发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力，以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。

Sep, 2023

迷失在翻译中：当 GPT-4V (ision) 无法与文字心有灵犀。VLLMs 及更多的视觉语言一致性分析

通过对多模态机制的详细分析，揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性，并引入了一种名为 “Vision Description Prompting” 的方法，有效提高了具有挑战性的视觉相关任务的性能。

Oct, 2023