CVPRApr, 2021

通向通用视觉系统

TL;DR本文提出了一种通用视觉语言体系结构 GPV-1,它可以学习和执行涉及接收图像和生成文本和 / 或边界框的任务,包括分类、定位、视觉问答、字幕等多个任务,并通过实验证明 GPV-1 在多个任务上是有效的,可以重新利用跨任务的概念知识,并可以在零样本情况下执行指称表达式任务。