May, 2019

基于多视角视觉表示的多模态变压器用于图像字幕生成

TL;DR利用多模态 Transformer 模型并结合多视角视觉特征来进行图像描述,这种方法能够同时捕捉到图像内部和图像与文本之间的关系,相较于业内先前方法显著提升了效果,是图像描述任务的最新成果。