ACLMay, 2023

将视觉场景图转换为图像说明

TL;DR本论文提出了一种新的图像 / 视频描述方法,称之为 TSG,它使用多头注意力机制 (MHA) 和混合专家解码器,将场景图转换为更具描述性的字幕,并在 MS-COCO 数据集上取得了很好的效果。