CoBIT:一种对比式双向图像文本生成模型
本文介绍了通用的多模态基础模型 BEiT-3,通过三个方面的改进:骨干架构、预训练任务和模型扩展,实现了在视觉和视觉语言任务上的最先进转移性能。
Aug, 2022
本文设计和训练了一个生成式图像到文本的转换器 ——GIT,以统一图像 / 视频字幕和问答等视觉语言任务。使用简化的体系结构和扩大的预训练数据和模型规模,GIT 在 12 个具有挑战性的基准测试中都取得了新的最佳表现,这些基准测试中有 TextCaps、图像分类和场景文本识别等。
May, 2022
本文介绍了一种名为 CoCa 的对比式注解器,它使图像和文本的编码器和解码器能够预先训练。与标准的编码器 - 解码器变压器不同的是,在解码器的前半段中省略跨关注,以编码单模态文本表示形式,并级联其余解码器层,以便对图像编码器进行跨模态图像文本表示形式的跨关注。CoCa 以无缝方式将所有标签视为文本进行训练,并在各种视觉任务上实现了最先进的性能。
May, 2022
本文提出了一种新的视觉 - 语言预训练模型 ——ImageBERT,用于图像 - 文本联合嵌入,该模型基于 Transformer,可以将不同的模态作为输入,并建模它们之间的关系。通过多阶段的预训练策略,可以提高预训练质量,最终在图像检索和文本检索任务上获得了新的最先进结果。
Jan, 2020
本文研究了图片到文本和文本到图片生成的联合学习,使用了基于 Transformer 的单个多模式模型来统一学习双向任务,并通过两级粒度特征表示和序列级训练进一步改进 Transformer 的统一框架,实验证明,该方法显著提高了先前基于 Transformer 的模型 X-LXMERT 的文本到图像生成的 FID(37.0→29.9)和在 MS-COCO 数据集上对细调图像到文本生成的 CIDEr-D 得分(100.9%→122.6%)。
Oct, 2021
本文提出了 SynCoBERT—— 一种语法引导的,多模态对比预训练方法,旨在更好地表示代码,其中设计了两种新的预训练目标 —— 标识符预测和 AST 边缘预测,并提出了多模态对比学习策略来最大化不同模态之间的互信息。经过广泛的实验,SynCoBERT 在与相同的预训练语料库和模型大小进行比较时,提高了与代码智能相关的四个下游任务的最新性能。
Aug, 2021
我们提出了一种创新的图像编辑框架,利用多模式大语言模型(LLMs)的强大的思路链条推理和本地化能力来辅助扩散模型生成更加精细的图像。
May, 2024
本文提出了一种名为 CiT 的有效视觉 - 文本学习算法,通过在训练中将数据目标整合进去,自动产生高质量数据集和提高对比度图像 - 文本训练的速度,从而实现了数据筛选管道的免除和训练速度的提高。
Jan, 2023