Jul, 2020

视觉指导下的稀疏图到序列学习,用于生成长文本序列

TL;DR本文通过考虑图像内容的视觉信息生成长文本序列的问题,提出了SGST模型,它使用Transformer架构来解决图像段落到自然语言序列的问题,可以直接编码图层级语义,结果在图像段落数据集上相对于之前的最新成果提高了13.3%的CIDEr评估指标。