Jun, 2023
不要断章取义:统一的视觉语言预训练为上下文辅助的图像字幕生成
"Let's not Quote out of Context": Unified Vision-Language Pretraining
for Context Assisted Image Captioning
TL;DR本文提出了一个基于context-aware image captioning的unified Vision-Language (VL) model,并利用pretraining技术解决了context-independent问题,以达到比以前更好的效果。