Nov, 2021

图像字幕生成的视觉语言预训练规模化提升

TL;DR本研究介绍了LEMON,一个大规模图像描述生成模型,探究了基于视觉-语言预训练的transformer模型在图像描述生成中的可扩展性,并使用大量数据和不同训练方法对其进行了实验和分析,取得了多个数据集上的最新成果。