Mar, 2024

DOrA:具有顺序感的三维视觉连接

TL;DRDOrA 是一个使用大型语言模型的 3D 视觉指向框架,通过引入有序锚定对象,更新视觉特征并定位目标对象,在低资源和全数据场景下表现出超越当前最先进框架的优越性,分别在 1%数据和 10%数据设置下将基准提高了 9.3%和 7.8%的准确率。