May, 2022

CoCa: 对比式字幕生成模型是图像文本基础模型

TL;DR本文介绍了一种名为 CoCa 的对比式注解器,它使图像和文本的编码器和解码器能够预先训练。与标准的编码器 - 解码器变压器不同的是,在解码器的前半段中省略跨关注,以编码单模态文本表示形式,并级联其余解码器层,以便对图像编码器进行跨模态图像文本表示形式的跨关注。CoCa 以无缝方式将所有标签视为文本进行训练,并在各种视觉任务上实现了最先进的性能。