Jun, 2023

弱监督视觉问答生成

TL;DR本文提出一种弱监督视觉问答生成方法,从视觉信息和字幕中合成问答对,使用 ViLBERT 模型对其进行微调,实验结果在 VQA 数据集上表现显著优于其他先进技术。