Mar, 2020

XGPT: 图像字幕跨模态生成预训练模型

TL;DR这篇论文提出了一种新的跨模态生成预训练方法 XGPT,用于图像字幕生成,其能够在不需要特定任务架构修改的情况下进行微调,实验证明在基准数据集上获得了新的最佳结果,并且在图像检索任务中作为数据增强产生了显著的进步。