CoBIT：一种对比式双向图像文本生成模型

Mar, 2023

CoBIT：一种对比式双向图像文本生成模型

CoBIT: A Contrastive Bi-directional Image-Text Generation Model

Haoxuan You, Mandy Guo, Zhecan Wang, Kai-Wei Chang, Jason Baldridge...

TL;DR提出了一个新的 Contrastive Bi-directional Image-Text generation (CoBIT) 模型，具有 unicoder-decoder 结构，可同时应用于图像理解、图像与文本相互理解和文本创作，特别是在零样本场景下表现卓越。

Abstract

The field of vision and language has witnessed a proliferation of pre-trained foundation models. Most existing methods are independently pre-trained with contrastive objective like CLIP, image-to-text generative objective like PaLI, or text-to-image generative objective like Parti. However, the three objectives can be pre-trained on the same data,

image-text pairs pre-training objectives unicoder-decoder structure text-based content creation zero-shot scenarios

发现论文，激发创造

图像作为外语：BEiT 预训练模型用于所有视觉和视觉语言任务

本文介绍了通用的多模态基础模型 BEiT-3，通过三个方面的改进：骨干架构、预训练任务和模型扩展，实现了在视觉和视觉语言任务上的最先进转移性能。

Aug, 2022

GIT: 用于视觉和语言的生成图像到文本的变压器

本文设计和训练了一个生成式图像到文本的转换器 ——GIT，以统一图像 / 视频字幕和问答等视觉语言任务。使用简化的体系结构和扩大的预训练数据和模型规模，GIT 在 12 个具有挑战性的基准测试中都取得了新的最佳表现，这些基准测试中有 TextCaps、图像分类和场景文本识别等。

May, 2022

CoCa: 对比式字幕生成模型是图像文本基础模型

本文介绍了一种名为 CoCa 的对比式注解器，它使图像和文本的编码器和解码器能够预先训练。与标准的编码器 - 解码器变压器不同的是，在解码器的前半段中省略跨关注，以编码单模态文本表示形式，并级联其余解码器层，以便对图像编码器进行跨模态图像文本表示形式的跨关注。CoCa 以无缝方式将所有标签视为文本进行训练，并在各种视觉任务上实现了最先进的性能。

May, 2022

ImageBERT：利用大规模弱监督图像 - 文本数据的跨模态预训练

本文提出了一种新的视觉 - 语言预训练模型 ——ImageBERT，用于图像 - 文本联合嵌入，该模型基于 Transformer，可以将不同的模态作为输入，并建模它们之间的关系。通过多阶段的预训练策略，可以提高预训练质量，最终在图像检索和文本检索任务上获得了新的最先进结果。

Jan, 2020

双向图像与文本生成统一多模态转换器

本文研究了图片到文本和文本到图片生成的联合学习，使用了基于 Transformer 的单个多模式模型来统一学习双向任务，并通过两级粒度特征表示和序列级训练进一步改进 Transformer 的统一框架，实验证明，该方法显著提高了先前基于 Transformer 的模型 X-LXMERT 的文本到图像生成的 FID（37.0→29.9）和在 MS-COCO 数据集上对细调图像到文本生成的 CIDEr-D 得分（100.9%→122.6%）。

Oct, 2021

SynCoBERT：针对代码表示的语法引导的多模式对比预训练

本文提出了 SynCoBERT—— 一种语法引导的，多模态对比预训练方法，旨在更好地表示代码，其中设计了两种新的预训练目标 —— 标识符预测和 AST 边缘预测，并提出了多模态对比学习策略来最大化不同模态之间的互信息。经过广泛的实验，SynCoBERT 在与相同的预训练语料库和模型大小进行比较时，提高了与代码智能相关的四个下游任务的最新性能。

Aug, 2021

大规模双向训练的零样本图像描述

本文介绍了一种名为 BITTERS 的零 - shot 图像描述框架及数据集评估方法，通过双向图像文本训练以及精细调整提高图像描述精度。

Nov, 2022

TIE：针对复杂提示和高保真度编辑的文本图像编辑革新

我们提出了一种创新的图像编辑框架，利用多模式大语言模型（LLMs）的强大的思路链条推理和本地化能力来辅助扩散模型生成更加精细的图像。

May, 2024

多模态码本在文本图像翻译中的应用

本文提出了多模态码本的 TIT 模型和多阶段的培训框架，充分利用 OCR 数据集和我们的 OCRMT30K 数据集训练模型，为后续研究提供便利。

May, 2023

CiT：有效视觉语言数据训练的筛选

本文提出了一种名为 CiT 的有效视觉 - 文本学习算法，通过在训练中将数据目标整合进去，自动产生高质量数据集和提高对比度图像 - 文本训练的速度，从而实现了数据筛选管道的免除和训练速度的提高。

Jan, 2023