Mar, 2024

MiKASA: 3D 视觉定位的多关键锚点和场景感知变换器

TL;DR我们提出了 MiKASA(多键锚点场景感知)Transformer 模型,通过自注意力机制和多键锚点技术,提高了目标识别的准确性和对空间关系的理解,同时改善了决策的可解释性。在 Referit3D 挑战中,我们的模型在 Sr3D 和 Nr3D 数据集中取得了最高的准确度,并在需要依赖视角的描述方面表现出色。