Oct, 2023

CoT3DRef: 链状思考数据高效 3D 视觉定位

TL;DR设计一种可解释的 3D 视觉定位框架,通过预测一系列锚点和最终目标,将 3D 视觉定位问题形式化为序列到序列任务,将指称任务分解为可解释的中间步骤,从而提高性能并极大地提高数据效率。