MMAug, 2021

TransRefer3D:面向细粒度 3D 视觉 grounding 的实体 - 关系感知 Transformer

TL;DR本文提出了一种基于 Transformer 的 TransRefer3D 网络,利用实体和关系感知的多模态上下文提取模块,通过协同注意力操作进行跨模态匹配,构建了逐层的多模态上下文模型,从而在细粒度 3D 视觉定位任务中实现了学习出更具区分度的特征,并在实验中取得领先的性能。