Oct, 2022

基于视觉 Transformer 的图像描述故事模型

TL;DR该研究提出了一种基于 Vision Transformer 的模型来描述图像集,借助双向 LSTM 和注意力机制来捕捉图像的上下文信息和语义关系,模型在 Visual Story-Telling 数据集上的表现明显超过了目前的最先进模型。