Feb, 2021

VisualGPT:预训练语言模型数据有效适配图像字幕生成

TL;DR本研究提出了 VisualGPT,一种数据高效的图像字幕模型,它利用了预先训练的语言模型中获得的语言知识,使用自重生编码器 - 解码器注意机制在少量领域训练数据上快速适应预训练的语言模型,并通过稀疏激活单元减少了零梯度的影响,我们在 MSCOCO 和 Conceptual Captions 数据集上进行 0.1%,0.5%和 1%的训练,结果表明,我们在 MS COCO 上的 CIDEr 得分最好的基线模型高达 10.8%,在 Conceptual Captions 上高达 5.4%,并在医学报告生成数据集 IU X-ray 上取得了最新的结果。