Jul, 2021

Space - 语言模型用于 3D 视觉基础

TL;DR提出了一种空间语言模型用于 3D 视觉定位问题,使用基于 Transformer 的架构将空间嵌入和 DistilBert 的语言嵌入结合起来进行目标对象预测,能够在 ReferIt3D 提出的数据集上表现出竞争性,可以被应用于机器人等领域的视觉任务中。