Mar, 2024

DOrA:具有顺序感的三维视觉连接

TL;DRDOrA是一个使用大型语言模型的3D视觉指向框架,通过引入有序锚定对象,更新视觉特征并定位目标对象,在低资源和全数据场景下表现出超越当前最先进框架的优越性,分别在1%数据和10%数据设置下将基准提高了9.3%和7.8%的准确率。