梦幻LLM：综合多模态理解与创作

Sep, 2023

DreamLLM: Synergistic Multimodal Comprehension and Creation

Runpei Dong, Chunrui Han, Yuang Peng, Zekun Qi, Zheng Ge...

TL;DRDreamLLM是第一个能够生成自由排列内容的多模态大型语言模型，通过直接采样原始多模态空间中的语言和图像后验概率的生成建模，以及对原始的、交叉排列的文档进行建模，从而实现了在多模态理解和生成之间被经常忽视的协同作用，它的全面实验突显了其作为零样本多模态通用模型的卓越性能。

Abstract

This paper presents dreamllm, a learning framework that first achieves versatile multimodal large language models (MLLMs) empowered with frequently overlooked synergy between multimodal comprehension and creation

发现论文，激发创造

多模态生成：将语言模型与图像相结合

该研究提出了一种有效的方法，将预训练的纯文本语言模型转移到视觉领域，使其能够处理和生成任意交错的图像和文本数据，并在上下文图像检索和多模态对话等方面实现了强有力的效果。

Jan, 2023

利用多模态语言模型生成图像

该论文提出了一种方法，通过将文本形式的大型语言模型嵌入图像编码器和解码器模型中，利用它们的嵌入空间之间的映射来融合两者，从而实现多模态的图像检索、新颖图像生成和多模态对话，同时还能生成并处理图像和文本输入，比非基于 LLM 的模型在一些基于文本生成图像任务方面表现更好。

May, 2023

SEED-Bench: 用生成理解评估多模态LLMs的基准

基于强大的大型语言模型（LLMs），最近的生成式多模态大型语言模型（MLLMs）作为一个关键的研究领域备受关注，展示了出色的理解和生成能力。本研究通过引入一个名为SEED-Bench的基准测试，解决了MLLMs生成理解的评估问题，该基准测试包含19K个准确的多项选择问题（是现有基准测试的6倍大），涵盖了12个评估维度，包括图像和视频模态的理解。我们开发了一个高级流程用于生成以特定评估维度为目标的多项选择问题，该流程整合了自动过滤和人工验证过程。由人类注释导出的带有真实选项的多项选择问题可以客观且高效地评估模型性能，在评估过程中无需人类或GPT的干预。我们进一步评估了18个模型在所有12个维度上的性能，涵盖了空间和时间的理解。通过评估结果揭示现有MLLMs的局限性，我们希望SEED-Bench为激发未来的研究提供见解。我们将建立并持续维护一个排行榜，为社区提供评估和研究模型能力的平台。

Jul, 2023

MiniGPT-5：基于生成 Vokens 的交叉视觉与语言生成

分阶段训练方法和生成vokens提高大型语言模型在视觉和语言生成方面的效果。

Oct, 2023

SEED-Bench-2：多模态大型语言模型基准测试

我们提出了 SEED-Bench-2，这是一个综合评估多模态大型语言模型能力的基准测试，并通过对23个主要开源多模态大型语言模型的性能评估，揭示了现有模型的局限性。

Nov, 2023

多模态理解排行榜：文本与图像

Multi是一种多模态大型语言模型（MLLMs）的先进基准测试，提供了综合数据集，用于评估MLLMs在理解复杂图表、科学问题等方面的表现，并挑战包括公式推导、图像细节分析和跨模态推理在内的多样任务。评估结果表明，MLLMs在Multi上取得了显著的进展，与其他MLLMs相比，GPT-4V的准确率达到了63.7%，Multi不仅是一个强大的评估平台，也为专家级AI的发展铺平了道路。

Feb, 2024

多模态大型语言模型的（R）演进：一项调查

连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发，目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的MLLMs，分析了它们的体系结构选择、多模态对齐策略和训练技术。同时，还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外，我们还编译和描述了训练数据集和评估基准，并在性能和计算要求方面对现有模型进行了比较。总体而言，本调查提供了当前最新技术的全面概述，为未来的MLLMs奠定了基础。

Feb, 2024

DreamLIP：长描述文本的语言-图像预训练

通过在大规模语言模型中生成详细描述的长标题，我们提出了一种动态采样子标题的方法，以在对比学习框架中构建多个正向对并使用分组损失进行自监督训练，实验证明该方法在多种下游任务上具有明显优势。

Mar, 2024

SEED-Bench-2-Plus：基于多模态大型语言模型的文本丰富视觉理解基准测试

我们介绍了SEED-Bench-2-Plus，这是一个专门设计用于评估MLLMs的文本丰富视觉理解的基准，通过涵盖现实世界中的三个广泛类别（图表、地图和网络），它们有效地模拟了复杂多样的文本丰富环境，并强调了当前MLLMs在文本丰富视觉理解方面的限制。

Apr, 2024

CoMM：一种用于多模态理解与生成的连贯交织的图像文本数据集

CoMM数据集提供了同时生成图像和文本的高质量多模态内容，以增强多模态大语言模型的一致性和准确性，并在多个下游任务中显示出显著的上下文学习能力。

Jun, 2024