Jul, 2023
利用基于 Transformer 的框架提高图像字幕生成的深度信息
Enhancing image captioning with depth information using a Transformer-based framework
Aya Mahmoud Ahmed, Mohamed Yousef, Khaled F. Hussain, Yousef Bassyouni Mahdy
TL;DR本研究通过整合 RGB 图像与深度信息进行图像描述,提出了一种基于 Transformer 编码 - 解码框架生成 3D 场景多句描述的方法,并在 NYU-v2 和斯坦福图像段落描述数据集上进行了实验,结果表明深度信息可以提高图像描述的效果。