Nov, 2021

UniTAB: 将文本和框输出统一以进行视觉语言建模

TL;DR提出了UniTAB模型,该模型将文本描述和框框输出合并,用特殊的<obj>标记指示文本描述和对象区域之间的字框对齐,并在7项视觉语言基准测试中表现出比同类模型更好的地面描述、可视化对准和图像描述等能力,网络的参数效率和泛化能力更强。