Jun, 2023

不要断章取义:统一的视觉语言预训练为上下文辅助的图像字幕生成

TL;DR本文提出了一个基于context-aware image captioning的unified Vision-Language (VL) model,并利用pretraining技术解决了context-independent问题,以达到比以前更好的效果。