Jul, 2021

ReFormer: 用于图像字幕的关系 Transformer

TL;DR提出了一种新的神经网络结构 ReFormer,该网络基于 Transformer 模型,融合了场景图生成目标与图像描述目标,实现了对图像对象间关系的显式建模,并能够同时生成高质量的图像描述和场景图,实验结果证明 ReFormer 在图像描述与场景图生成方面均优于当前的最新模型。