May, 2023

通过整体三维场景理解生成视觉空间描述

TL;DR本文研究了如何使用三维场景特征来提高视觉空间描述(VSD)的准确度和多样性,通过构建一个基于目标对象的三维空间场景图和场景子图选择机制,从而实现更加多样空间的文本生成,实验证明这种方法在视觉空间关系复杂的情况下表现明显优于基线模型。