将图像转化为地图

Oct, 2021

Translating Images into Maps

Avishkar Saha, Oscar Mendez Maldonado, Chris Russell, Richard Bowden

TL;DR通过使用新形式的变压器网络，直接将图像或视频转换为俯视图或鸟瞰视图，从而获得即时映射，通过顺序到顺序的翻译来生成地图，利用图像的背景信息来解析每个像素的作用，该算法在三个大规模数据集上的表现达到了最佳水平。

Abstract

We approach instantaneous mapping, converting images to a top-down view of the world, as a translation problem. We show how a novel form of transformer network can be used to map from images and video directly to an ove

instantaneous mapping transformer network overhead map sequence-to-sequence translations state-of-the-art results

发现论文，激发创造

使用图像转换完成无约束面部几何重建

使用 Image-to-Image 翻译网络将输入图像及其深度图及面部对应图映射起来，可通过几何细化过程提供多种严格的人脸重建，只需在合成数据上训练即可对本地面部图像进行精确和鲁棒的重建。

Mar, 2017

多装载车辆摄像头图像转换成鸟瞰视角语义分割图像的 Sim2Real 深度学习方法

该论文提出了一种使用多个车载摄像头获取 360 度鸟瞰图像的方法，并利用神经网络进行分割和预测，以解决单目摄像头在环境感知中的距离估计问题。该方法包括一个语义分割和遮挡区域预测步骤，通过合成数据训练神经网络，实现了对真实世界数据的普遍适用。与透视变换法相比，该方法在合成数据实验中表现出了优越性。

May, 2020

翻译困境：现代神经网络在小型逼真图像变换中仍然面临困难

通过简单的方法，我们实现了对最先进模型进行 1 像素平移的错误率降低到不到 5%，同时只有 1% 的分类准确率下降。此方法还可以轻松调整以处理循环位移，而无需任何进一步的训练。

Apr, 2024

用 Transformer 实现姿态作为查询：图像到 LiDAR 地图的定位

本研究提出一种新型的基于 Transformer 的神经网络，可以在 end-to-end 的情况下将 2D 图像注册到 3D LiDAR 地图中进行车辆定位，达到了一定的准确度和实用性。

May, 2023

面向端到端的图像内神经机器翻译

本文旨在研究在图像中的机器翻译任务：将包含一种语言文本的图像转化为包含另一种语言文本的图像。我们提出了一个基于神经网络的端到端模型，并证明纯像素级监督可以得到很好的初步结果。我们进行了定量和定性评估，并讨论了一些常见的失误模式。最后，我们提出了未来工作的方向。

Oct, 2020

交叉视图 Transformer 用于实时地图视角语义分割

本文提出了一种名为 Cross-View Transformers 的注意力机制模型，能够在不需要显式几何建模的情况下，从多个相机的视角中学习到语义分割的图像表示，并进行了实时性能验证。

May, 2022

双视角贴图：自动驾驶整体 BEV 语义地图

提出了一个全局视角和局部先验知识相结合的双映射框架 (Bi-Mapper)，包括异步相互学习策略和横跨空间损失函数 (ASL)，旨在提高自动驾驶系统中道路场景语义理解的可靠性，并在 nuScenes 和 Cam2BEV 数据集上进行了验证。

May, 2023

TransGeo: 跨视图图像地理定位的完整解决方案 ——Transformer Is All You Need

本研究提出了一种基于纯 Transformer 的方法（TransGeo）来针对交叉视图图像地理定位中的局限性，通过全局信息建模和显式位置信息编码等优势，结合了注意力引导的非均匀裁剪方法以实现性能优化，结果表明该方法在城市和乡村数据集上取得了最优结果，并显著降低了计算成本。

Mar, 2022

利用航拍影像进行街景定位和方向校准

利用深层卷积神经网络对地面和卫星俯视图进行交叉检索，实现图像地理定位，提出了一种新的损失函数，并采用多种匹配机制和旋转不变训练来提高图片匹配精度和效率。

Jul, 2016

LetsMap：无监督语义 BEV 地图的表示学习

该研究提出了一种无监督学习方法，从单眼正视图像生成语义鸟瞰地图，以在自动驾驶的各种决策任务中提供强大的遮挡推理能力，其使用了 1% 的标注数据和无额外标记数据，在 KITTI-360 和 nuScenes 数据集上表现与现有最先进的方法相当。

May, 2024