Jan, 2022

一种简单且高效的端到端图像描述方法

TL;DR通过联接预训练的视觉编码器和语言解码器,提出了一种自组装的交叉模式融合机制,建立了一种朴素但高效的端到端形象字幕框架,名为 VC-GPT,不需要额外的物体探测器,非常好地解决了现有方法中可能存在的问题,验证结果显示 VC-GPT 完全超越了传统基线系统。