CoDi-2: 上下文、交错和交互的任意生成

Nov, 2023

CoDi-2: 上下文、交错和交互的任意生成

CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation

Zineng Tang, Ziyi Yang, Mahmoud Khademi, Yang Liu, Chenguang Zhu...

TL;DRCoDi-2 是一种多功能且互动的多模态大型语言模型，能够在任意输入 - 输出的模态范式下遵循复杂的多模态交织指令、进行上下文学习、推理、聊天、编辑等。通过对语言和模态进行编码和生成的对齐，CoDi-2 赋予大型语言模型不仅理解复杂的模态交织指令和上下文示例的能力，还能在连续特征空间中自动生成基于现实且连贯的多模态输出。

Abstract

We present codi-2, a versatile and interactive Multimodal Large Language Model (MLLM) that can follow complex multimodal interleaved instructions, conduct →

codi-2 multimodal large language model interleaved instructions in-context learning multimodal generation

发现论文，激发创造

DialogGen: 多模态交互式对话系统用于多轮文本到图像生成

通过将多模态大型语言模型与文本到图像生成模型相结合，提出了一种用于多轮文本到图像生成的多模态交互对话系统，同时引入了一种全面的多模态对话评估基准，以评估模型在生成准确且连贯的多模态内容上的能力，包括模态切换和输出图像的连贯性。

Mar, 2024

多语言大型语言模型是否能够进行上下文中的文本到图像学习？

将大型语言模型从文本到多模态进化为多模态大型语言模型 (MLLMs)，并扩展了上下文学习 (ICL) 到多模态环境。本研究中提出以 T2I-ICL 为任务的新的 benchmark 数据集 CoBSAT，通过与六个最先进的 MLLMs 算法的对比表明了 T2I-ICL 的困难及其挑战，并探索了 fine-tuning 和 Chain-of-Thought prompting 等策略以实现显著改进。

Feb, 2024

单幅图像中的一切：大型多模态模型是图像学习器

该论文介绍了一种新的上下文学习机制 ——In-Image Learning（I²L），将示范示例、视觉线索和指令结合到一张图像中，以增强 GPT-4V 的能力，并通过图像处理、理解和推理能力来整合所有信息，从而避免了复杂图像的文本描述不准确、位置示范示例灵活、输入负担减少、避免多张图像和冗长文本的输入限制等优势。通过引入自动策略选择适当的 ICL 方法，我们进一步整合了不同 ICL 方法的优势，对 MathVista 和 Hallusionbench 进行了实验，测试了 I²L 在复杂多模态推理任务中的有效性以及对语言幻觉和视觉错觉的缓解作用，并探讨了图像分辨率、示范示例数量和位置对 I²L 有效性的影响。我们的代码公开可用于此 https 网址。

Feb, 2024

走向更统一的上下文视觉理解

我们提出了一种新的具有多模态输出功能的视觉理解的上下文学习框架，通过将文本和视觉提示量化和嵌入到统一的表示空间中，并采用仅具有解码器的稀疏 Transformer 架构在其上执行生成建模。实验结果表明，我们的模型在统一的多模态管线中实现了与专门模型和先前上下文学习基准模型相竞争的性能。总体而言，我们的研究在统一多模态上下文学习方面迈出了进一步的一步。

Dec, 2023

CoCoT: 大型多模型多图像输入的对比思维链接引导

当探索人工通用智能（AGI）的发展时，大型多模态模型（LMMs）在处理多个图像输入的信息时面临两个问题：细粒度感知的缺乏和融合多个图像的倾向。我们首先广泛研究了 LMMs 在处理多个输入图像时感知细粒度视觉细节的能力。研究集中在两个方面：首先，图像与图像匹配（评估 LMMs 是否能够有效推理和配对相关图像），其次，多图像与文本匹配（评估 LMMs 是否能够准确捕捉和总结详细的图像信息）。我们对一系列开源和闭源的大型模型进行评估，包括 GPT-4V，Gemini，OpenFlamingo 和 MMICL。为了增强模型性能，我们还基于多输入多模态模型开发了一种对比的思维链（CoCoT）启发方法。该方法要求 LMMs 比较多个图像输入的相似性和差异性，然后根据确定的相似性和差异性指导模型回答关于多图像输入的详细问题。我们的实验结果展示了 CoCoT 在增强大型多模态模型的多图像理解能力方面的熟练度。

Jan, 2024

i-Code V2：基于视觉、语言和语音数据的自回归生成框架

文章提出了 i-Code V2，这是第一个能够从任何视觉、语言和语音数据组合中生成自然语言的模型，它通过利用最先进的单模态编码器将各类模态组合并映射到一个共享表征空间，并使用自回归解码器从这些表征中生成语言词汇。i-Code V2 在大量数据集上进行端到端预训练，通过文本补全目标实现泛化在任意模态组合上，展示出了多模态预训练在各种任务和信号方面的强大性能。

May, 2023

让任何多模态大型语言模型都能高效地进行上下文学习

通过聚合多模态演示的图像信息到相应的语言部分的密集潜在空间，我们提出了一种称为 AIM 的通用轻量级框架来解决多模态 ICL 的两个问题。

Jun, 2024

面向视觉与语言模型的多模态上下文学习

通过对一些最先进的 VLM（Visual Language Model）进行分析，我们发现它们在执行 ICL（In-Context Learning）指令时存在一定的不足。为了验证这个猜想，我们提出了一种简单但令人惊讶地有效的策略，通过扩展一个常见的 VLM 对齐框架，实现 ICL 支持、方法和课程设置。我们探讨、分析并提供了对有效数据混合的见解，从而显著提升了 21.03% 的 ICL 表现（平均 11.3%），超过了最强 VLM 基线和多种 ICL 基准，并为 VLM 的 ICL 评估贡献了新的基准，并讨论了它们相对于现有技术的优势。

Mar, 2024

TIE：针对复杂提示和高保真度编辑的文本图像编辑革新

我们提出了一种创新的图像编辑框架，利用多模式大语言模型（LLMs）的强大的思路链条推理和本地化能力来辅助扩散模型生成更加精细的图像。

May, 2024

基于多样化指令的可控生成大型语言模型的基准测试

我们提出了一个新的基准测试 CoDI-Eval，系统和全面评估 LLMs 对带有各种约束的指令的响应，揭示了它们在按照特定约束执行指令方面的局限性和开源与闭源 LLMs 之间存在显著差距。

Jan, 2024