Jul, 2023

利用基于 Transformer 的框架提高图像字幕生成的深度信息

TL;DR本研究通过整合 RGB 图像与深度信息进行图像描述,提出了一种基于 Transformer 编码 - 解码框架生成 3D 场景多句描述的方法,并在 NYU-v2 和斯坦福图像段落描述数据集上进行了实验,结果表明深度信息可以提高图像描述的效果。