BriefGPT.xyz
May, 2022
GIT: 用于视觉和语言的生成图像到文本的变压器
GIT: A Generative Image-to-text Transformer for Vision and Language
HTML
PDF
Jianfeng Wang, Zhengyuan Yang, Xiaowei Hu, Linjie Li, Kevin Lin...
TL;DR
本文设计和训练了一个生成式图像到文本的转换器——GIT,以统一图像/视频字幕和问答等视觉语言任务。使用简化的体系结构和扩大的预训练数据和模型规模,GIT在12个具有挑战性的基准测试中都取得了新的最佳表现,这些基准测试中有TextCaps、图像分类和场景文本识别等。
Abstract
In this paper, we design and train a
generative image-to-text transformer
, GIT, to unify
vision-language tasks
such as image/video captioning and question answering. While generative models provide a consistent n
→