Kosmos-G: 使用多模态大型语言模型生成上下文中的图像
Kosmos-2.5 是一个多模式文本密集图像的机器阅读模型,能够生成带有空间感的文本块并以 markdown 格式产生结构化文本输出,通过 Transformer,任务特定的提示和灵活的文本表示来实现统一的多模式文本功能,可以适应不同提示的文本密集图像任务。
Sep, 2023
Kosmos-2 是一种多模态大型语言模型,其新功能包括感知物体描述并将文本与视觉世界联系起来,此工作对于实现人工通用智能是关键的一步,可以通过多模态语料库和 GrIT 数据集进行众多任务的评估和训练。
Jun, 2023
本文介绍了 Kosmos-1,它是一个多模态大语言模型(MLLM),可以感知一般模态,可以在上下文中学习,可以零 - shot 地遵循说明,并在各种任务上取得了卓越的性能,包括语言理解、生成,多模态对话,图像字幕,视觉问答等,并证明 MLLM 可以从跨模态转移中受益,即从语言到多模态和从多模态到语言。此外,我们还介绍了 Raven IQ 测试数据集,用于诊断 MLLM 的非语言推理能力。
Feb, 2023
该论文提出了一种方法,通过将文本形式的大型语言模型嵌入图像编码器和解码器模型中,利用它们的嵌入空间之间的映射来融合两者,从而实现多模态的图像检索、新颖图像生成和多模态对话,同时还能生成并处理图像和文本输入,比非基于 LLM 的模型在一些基于文本生成图像任务方面表现更好。
May, 2023
该研究提出了一种有效的方法,使用基于注意力的添加层来整合视觉信息,构建了引导语言模型进行视频摘要的模型,通过模态融合的方法,使该模型在 How2 数据集上的 ROUGE-1、ROUGE-2 和 ROUGE-L 比之前的最新研究提高了 5.7, 5.3 和 5.1 分数,其中 83.6% 的提高来自于视觉引导方法,为多模态抽象摘要任务提供了有效的方法。
Sep, 2021
本研究提出了一个名为 MAGIC 的无需训练的框架,它能够将视觉控制插入文本生成过程中,并使 LM 在零样本情况下执行多模态任务,如图像字幕生成。在零样本图像字幕生成方面,MAGIC 在几乎 27 倍的解码加速度下,极大地超越了现有的最先进方法。
May, 2022
本研究通过将视觉信息纳入 SKIP-GRAM 模型,创新性地提出了一种多模式的词向量表达方式,并取得了良好的语义基准表现。同时,该模型还能够将视觉信息传递到所有词中,用于改进零样本图像标注和检索,并探索了抽象词汇的有趣视觉属性,为意义的具体化实现奠定了基础。
Jan, 2015
本文提出了一种名为 V-GLOSS 的方法,利用现代语言模型和语义知识库生成视觉上有根据的类别描述,进而解决现有方法中存在的粒度和标签歧义问题。通过在 ImageNet 和 STL-10 等基准 ZSIC 数据集上实现最新的结果,证明了 V-GLOSS 的有效性,并引入了一个 V-GLOSS 生成的类别描述的银数据集,并展示了它在视觉任务中的有用性。
Jun, 2023
通过视觉 - 语言知识蒸馏 (VLKD) 增强双流 VLP 模型,使其具有多模态生成能力,实现开放式视觉问答和图像字幕等多模态生成任务的强零 - shot 性能。
Mar, 2022