Kosmos-G: 使用多模态大型语言模型生成上下文中的图像
本文介绍了Kosmos-1,它是一个多模态大语言模型(MLLM),可以感知一般模态,可以在上下文中学习,可以零-shot地遵循说明,并在各种任务上取得了卓越的性能,包括语言理解、生成,多模态对话,图像字幕,视觉问答等,并证明MLLM可以从跨模态转移中受益,即从语言到多模态和从多模态到语言。此外,我们还介绍了Raven IQ测试数据集,用于诊断MLLM的非语言推理能力。
Feb, 2023
本篇文章研究了如何通过联合对话模型和语言模型使其能够有效地处理视觉信息,解决了在有限样本时视觉-语言任务的问题,使输出更易于解释。
May, 2023
Kosmos-2 是一种多模态大型语言模型,其新功能包括感知物体描述并将文本与视觉世界联系起来,此工作对于实现人工通用智能是关键的一步,可以通过多模态语料库和 GrIT 数据集进行众多任务的评估和训练。
Jun, 2023
我们提出了一种新的数据收集方法,通过异步合成图像和对话以进行视觉指导调优,结合ChatGPT和文本到图像生成模型的能力,显著增强了多种模型功能。
Aug, 2023
Kosmos-2.5是一个多模式文本密集图像的机器阅读模型,能够生成带有空间感的文本块并以markdown格式产生结构化文本输出,通过Transformer,任务特定的提示和灵活的文本表示来实现统一的多模式文本功能,可以适应不同提示的文本密集图像任务。
Sep, 2023
多模态大型语言模型(MLLMs)借助视觉知识的两个层面提升了理解和感知多模态信号的能力。通过逐步整合细粒度的空间感知视觉知识和软提示高级语义视觉证据的方法,我们的模型在多个多模态基准测试中展示了过人的优越性能。
Nov, 2023
VL-GPT是一种同时感知和生成视觉和语言数据的变压器模型,通过采用直观的自回归目标,实现了图像和文本两种模态的统一预训练方法,从而使模型可以像处理文本一样无缝地处理图像和文本。预训练完成后,VL-GPT在包括图像字幕生成、视觉问答、文本到图像生成等多样的视觉和语言理解以及生成任务中表现出了令人瞩目的零样本和少样本性能。
Dec, 2023
连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发,目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的MLLMs,分析了它们的体系结构选择、多模态对齐策略和训练技术。同时,还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外,我们还编译和描述了训练数据集和评估基准,并在性能和计算要求方面对现有模型进行了比较。总体而言,本调查提供了当前最新技术的全面概述,为未来的MLLMs奠定了基础。
Feb, 2024
使用机器生成的指令跟随数据,通过集成对生成和图像编辑任务的支持,我们改进了一个大型多模态模型的零样本能力。我们构建了一个新的多模态指令跟随数据集,并使用GPT-4V和现有的图像生成和编辑数据集。通过三种类型的大型预训练模型的指令微调策略(语言模型的LLaMA,图像文本匹配的SigLIP,文本到图像生成的StableDiffusion),我们建立了GenLLaVA,一个生成性的大型语言与视觉助手。我们的模型在视觉理解任务上表现出与LLaVA相当的能力,并且与Unified-IO 2等本地多模态模型展示了有竞争力的结果,为构建先进的通用视觉助手铺平了道路。我们公开了数据集、代码库和模型检查点,以促进该领域的进一步研究与应用。
Jun, 2024