Jul, 2021

三维物体语言基础

TL;DR本文介绍了一个新的推理任务,旨在针对三维对象的视觉和非视觉语言,并介绍了用于区分对象的几种 CLIP 模型。虽然最近在联合建模视觉和语言方面取得了进展,但这些基于图像的模型仍然对对象的三维性质了解不足,此文发现,将视图估计添加到语言引理模型可以提高准确性。