Oct, 2022

视觉空间描述:受控的空间定向图像到文本生成

TL;DR提出了一种名为 VSD 的新的图像与文本方向,其着眼于空间语义,通过使用 VL-BART 和 VL-T5 作为支撑,构建了几个基准编码 - 解码模型,并在我们的基准测试集上进行实验,结果显示我们的模型性能令人印象深刻。同时 VSRC 将会有巨大的潜力,而联合端到端架构是更好的选择。