Jul, 2020
视觉指导下的稀疏图到序列学习,用于生成长文本序列
Sparse Graph to Sequence Learning for Vision Conditioned Long Textual
Sequence Generation
TL;DR本文通过考虑图像内容的视觉信息生成长文本序列的问题,提出了SGST模型,它使用Transformer架构来解决图像段落到自然语言序列的问题,可以直接编码图层级语义,结果在图像段落数据集上相对于之前的最新成果提高了13.3%的CIDEr评估指标。