BriefGPT.xyz
Ask
alpha
关键词
visual spatial description
搜索结果 - 2
通过整体三维场景理解生成视觉空间描述
本文研究了如何使用三维场景特征来提高视觉空间描述(VSD)的准确度和多样性,通过构建一个基于目标对象的三维空间场景图和场景子图选择机制,从而实现更加多样空间的文本生成,实验证明这种方法在视觉空间关系复杂的情况下表现明显优于基线模型。
PDF
a year ago
视觉空间描述:受控的空间定向图像到文本生成
提出了一种名为 VSD 的新的图像与文本方向,其着眼于空间语义,通过使用 VL-BART 和 VL-T5 作为支撑,构建了几个基准编码 - 解码模型,并在我们的基准测试集上进行实验,结果显示我们的模型性能令人印象深刻。同时 VSRC 将会有
→
PDF
2 years ago
Prev
Next