May, 2022

GIT: 用于视觉和语言的生成图像到文本的变压器

TL;DR本文设计和训练了一个生成式图像到文本的转换器 ——GIT,以统一图像 / 视频字幕和问答等视觉语言任务。使用简化的体系结构和扩大的预训练数据和模型规模,GIT 在 12 个具有挑战性的基准测试中都取得了新的最佳表现,这些基准测试中有 TextCaps、图像分类和场景文本识别等。