Kosmos-G: 使用多模态大型语言模型生成上下文中的图像
Kosmos-2.5 是一个多模式文本密集图像的机器阅读模型,能够生成带有空间感的文本块并以 markdown 格式产生结构化文本输出,通过 Transformer,任务特定的提示和灵活的文本表示来实现统一的多模式文本功能,可以适应不同提示的文本密集图像任务。
Sep, 2023
Kosmos-2 是一种多模态大型语言模型,其新功能包括感知物体描述并将文本与视觉世界联系起来,此工作对于实现人工通用智能是关键的一步,可以通过多模态语料库和 GrIT 数据集进行众多任务的评估和训练。
Jun, 2023
本文介绍了 Kosmos-1,它是一个多模态大语言模型(MLLM),可以感知一般模态,可以在上下文中学习,可以零 - shot 地遵循说明,并在各种任务上取得了卓越的性能,包括语言理解、生成,多模态对话,图像字幕,视觉问答等,并证明 MLLM 可以从跨模态转移中受益,即从语言到多模态和从多模态到语言。此外,我们还介绍了 Raven IQ 测试数据集,用于诊断 MLLM 的非语言推理能力。
Feb, 2023
本研究提出了一种利用大型语言模型和扩散模型的多模式生成方法(MGCC),通过在 LLM 嵌入空间中显式学习文本和图像之间的跨模式依赖关系以及生成特定于多物体场景的对象边界框,实现了从复杂的多模式提示序列中生成新图像的能力,并在两个基准数据集上进行了实验验证。
May, 2024
该论文介绍了一种新的上下文学习机制 ——In-Image Learning(I²L),将示范示例、视觉线索和指令结合到一张图像中,以增强 GPT-4V 的能力,并通过图像处理、理解和推理能力来整合所有信息,从而避免了复杂图像的文本描述不准确、位置示范示例灵活、输入负担减少、避免多张图像和冗长文本的输入限制等优势。通过引入自动策略选择适当的 ICL 方法,我们进一步整合了不同 ICL 方法的优势,对 MathVista 和 Hallusionbench 进行了实验,测试了 I²L 在复杂多模态推理任务中的有效性以及对语言幻觉和视觉错觉的缓解作用,并探讨了图像分辨率、示范示例数量和位置对 I²L 有效性的影响。我们的代码公开可用于此 https 网址。
Feb, 2024
该论文提出了一种方法,通过将文本形式的大型语言模型嵌入图像编码器和解码器模型中,利用它们的嵌入空间之间的映射来融合两者,从而实现多模态的图像检索、新颖图像生成和多模态对话,同时还能生成并处理图像和文本输入,比非基于 LLM 的模型在一些基于文本生成图像任务方面表现更好。
May, 2023
该研究提出了一种有效的方法,使用基于注意力的添加层来整合视觉信息,构建了引导语言模型进行视频摘要的模型,通过模态融合的方法,使该模型在 How2 数据集上的 ROUGE-1、ROUGE-2 和 ROUGE-L 比之前的最新研究提高了 5.7, 5.3 和 5.1 分数,其中 83.6% 的提高来自于视觉引导方法,为多模态抽象摘要任务提供了有效的方法。
Sep, 2021
UNIMO-G 是一个简单的多模态条件扩散框架,能够对多模态提示进行操作,并展示了文本驱动和主体驱动图像生成的统一能力。该框架通过训练大规模文本 - 图像对,以及使用多模态提示进行指导微调,实现了高保真度的图像生成。
Jan, 2024
本研究提出了一个名为 MAGIC 的无需训练的框架,它能够将视觉控制插入文本生成过程中,并使 LM 在零样本情况下执行多模态任务,如图像字幕生成。在零样本图像字幕生成方面,MAGIC 在几乎 27 倍的解码加速度下,极大地超越了现有的最先进方法。
May, 2022