Kosmos-2.5: 一个多模态的才华模型

Sep, 2023

Kosmos-2.5: A Multimodal Literate Model

Tengchao Lv, Yupan Huang, Jingye Chen, Lei Cui, Shuming Ma...

TL;DRKosmos-2.5 是一个多模式文本密集图像的机器阅读模型，能够生成带有空间感的文本块并以 markdown 格式产生结构化文本输出，通过 Transformer，任务特定的提示和灵活的文本表示来实现统一的多模式文本功能，可以适应不同提示的文本密集图像任务。

Abstract

We present kosmos-2.5, a multimodal literate model for machine reading of →

kosmos-2.5 multimodal literate model machine reading text-intensive images markdown format

发现论文，激发创造

Kosmos-G: 使用多模态大型语言模型生成上下文中的图像

Kosmos-G 是一个模型，利用 Multimodal Large Language Models（MLLMs）的视觉感知能力来生成来自泛化视觉 - 语言输入的图像，尤其是涉及多张图像的情况。

Oct, 2023

Kosmos-2：将多模态大型语言模型与世界接轨

Kosmos-2 是一种多模态大型语言模型，其新功能包括感知物体描述并将文本与视觉世界联系起来，此工作对于实现人工通用智能是关键的一步，可以通过多模态语料库和 GrIT 数据集进行众多任务的评估和训练。

Jun, 2023

语言远非万能：将感知与语言模型对齐

本文介绍了 Kosmos-1，它是一个多模态大语言模型（MLLM），可以感知一般模态，可以在上下文中学习，可以零 - shot 地遵循说明，并在各种任务上取得了卓越的性能，包括语言理解、生成，多模态对话，图像字幕，视觉问答等，并证明 MLLM 可以从跨模态转移中受益，即从语言到多模态和从多模态到语言。此外，我们还介绍了 Raven IQ 测试数据集，用于诊断 MLLM 的非语言推理能力。

Feb, 2023

双向图像与文本生成统一多模态转换器

本文研究了图片到文本和文本到图片生成的联合学习，使用了基于 Transformer 的单个多模式模型来统一学习双向任务，并通过两级粒度特征表示和序列级训练进一步改进 Transformer 的统一框架，实验证明，该方法显著提高了先前基于 Transformer 的模型 X-LXMERT 的文本到图像生成的 FID（37.0→29.9）和在 MS-COCO 数据集上对细调图像到文本生成的 CIDEr-D 得分（100.9%→122.6%）。

Oct, 2021

Florence-2: 推动视觉任务的统一表示

我们引入了 Florence-2，这是一个具有统一的基于提示的表示的新型视觉基础模型，用于各种计算机视觉和视觉语言任务。Florence-2 的一项重要功能是将文本提示作为任务指令，并生成期望的文本形式的结果，如字幕生成、目标检测、定位或分割。我们通过自动图像注释和模型改进的迭代策略，共同开发了包含 54 亿个综合视觉注释的 FLD-5B，它基于 1.26 亿张图像，提供了大规模、高质量的标注数据。我们采用序列到序列结构来训练 Florence-2 执行多功能和全面的视觉任务。对众多任务的广泛评估表明，Florence-2 是一个强大的视觉基础模型候选者，具有前所未有的零样本和微调能力。

Nov, 2023

mOSCAR：一个大规模的多语言和多模态的文档级语料库

Multimodal Large Language Models (mLLMs) that are trained on caption-like and interleaved text-image data, such as mOSCAR, show improved in-context learning capabilities, boost in few-shot learning performance across various multilingual image-text tasks and benchmarks, and address the limitation of current multilingual and multimodal datasets.

Jun, 2024

CosmicMan：一种用于人类的文本到图像基础模型

CosmicMan 是一个专门用于生成高保真度人类图像的文本转图像模型，通过引入新的数据和模型视角，实现了生成具有细致外观、合理结构和精确文图对齐的真实人类图像；其中的核心成功因素包括数据质量、可扩展的数据生成流程和文图对齐问题的解决。

Apr, 2024

结合语言和视觉的多模式跳字模型

本研究通过将视觉信息纳入 SKIP-GRAM 模型，创新性地提出了一种多模式的词向量表达方式，并取得了良好的语义基准表现。同时，该模型还能够将视觉信息传递到所有词中，用于改进零样本图像标注和检索，并探索了抽象词汇的有趣视觉属性，为意义的具体化实现奠定了基础。

Jan, 2015

大规模双语言 - 图像对比学习

本文介绍了利用 11 亿的图文对数据（7.08 亿的韩语数据和 4.76 亿的英语数据）训练出的一种名为 KELIP 的韩 - 英双语多模态模型的简单而有效的训练方案，并证明了该模型在两种语言中的性能相当竞争力，同时讨论了一些与多模态相关的研究问题。

Mar, 2022

COSMIC: 高效数据指令调整的语音上下文学习

我们提出一种数据和成本高效的方式，将语音模态融入到大型语言模型中，这种多模态语言模型被称为 COSMIC，具备指令跟随和上下文学习的能力。通过使用 GPT-3.5 生成基于语音转录的语音理解测试问答对作为指令调整的一部分，COSMIC 在少于 20M 个训练参数和 450 个小时的英语语音数据下展示了在语音转文本任务中具备指令跟随和上下文学习能力。该模型能够按照给定的文本指令生成文本回答，即使在未见过的 EN 到 X 的语音转文本翻译任务中也能执行。我们通过 EN 到 X 的语音转文本翻译任务和少样本域适应等多种任务来评估模型的上下文学习能力，并通过上下文偏置基准来评估指令跟随能力。我们的结果证明了构建语音语言模型的低成本方法的有效性，并证明了使用新的指令调整数据的价值。

Nov, 2023