May, 2022

GIT: 用于视觉和语言的生成图像到文本的变压器

TL;DR本文设计和训练了一个生成式图像到文本的转换器——GIT,以统一图像/视频字幕和问答等视觉语言任务。使用简化的体系结构和扩大的预训练数据和模型规模,GIT在12个具有挑战性的基准测试中都取得了新的最佳表现,这些基准测试中有TextCaps、图像分类和场景文本识别等。