Jul, 2024

有限视野跨视角地理定位的窗口到窗口 BEV 表示学习

TL;DR通过在地面查询图像中直接学习 BEV 表示,本研究首次探索了跨视图地理定位中由于视角变化导致的巨大挑战。为了解决由于未知方向性和相机参数缺失所造成的 BEV 查询与地面参考之间的不确定性,我们提出了一种新颖的窗口到窗口 BEV 表示学习方法,称为 W2W-BEV。该方法通过将预定义的 BEV 嵌入和提取的地面特征分割成固定数量的窗口,并基于上下文感知的窗口匹配策略,为每个 BEV 特征选择最相似的地面窗口。随后,在匹配的 BEV 和地面窗口之间执行交叉注意力以学习稳健的 BEV 表示。另外,我们使用地面特征和预测的深度信息来初始化 BEV 嵌入,以帮助学习更强大的 BEV 表示。对基准数据集进行的广泛实验结果表明,在未知方向性和有限视野的挑战条件下,我们的 W2W-BEV 方法相较于先前最先进的方法具有显著的优势。具体而言,在具有 90 度有限视野和未知方向的 CVUSA 数据集上,W2W-BEV 在 R@1 准确性方面将准确率从 47.24% 提高到 64.73%(+17.49%)。