使用 Image-to-Image 翻译网络将输入图像及其深度图及面部对应图映射起来,可通过几何细化过程提供多种严格的人脸重建,只需在合成数据上训练即可对本地面部图像进行精确和鲁棒的重建。
Mar, 2017
该论文提出了一种使用多个车载摄像头获取 360 度鸟瞰图像的方法,并利用神经网络进行分割和预测,以解决单目摄像头在环境感知中的距离估计问题。该方法包括一个语义分割和遮挡区域预测步骤,通过合成数据训练神经网络,实现了对真实世界数据的普遍适用。与透视变换法相比,该方法在合成数据实验中表现出了优越性。
May, 2020
通过简单的方法,我们实现了对最先进模型进行 1 像素平移的错误率降低到不到 5%,同时只有 1% 的分类准确率下降。此方法还可以轻松调整以处理循环位移,而无需任何进一步的训练。
Apr, 2024
本研究提出一种新型的基于 Transformer 的神经网络,可以在 end-to-end 的情况下将 2D 图像注册到 3D LiDAR 地图中进行车辆定位,达到了一定的准确度和实用性。
May, 2023
本文旨在研究在图像中的机器翻译任务:将包含一种语言文本的图像转化为包含另一种语言文本的图像。我们提出了一个基于神经网络的端到端模型,并证明纯像素级监督可以得到很好的初步结果。我们进行了定量和定性评估,并讨论了一些常见的失误模式。最后,我们提出了未来工作的方向。
Oct, 2020
本文提出了一种名为 Cross-View Transformers 的注意力机制模型,能够在不需要显式几何建模的情况下,从多个相机的视角中学习到语义分割的图像表示,并进行了实时性能验证。
May, 2022
提出了一个全局视角和局部先验知识相结合的双映射框架 (Bi-Mapper),包括异步相互学习策略和横跨空间损失函数 (ASL),旨在提高自动驾驶系统中道路场景语义理解的可靠性,并在 nuScenes 和 Cam2BEV 数据集上进行了验证。
本研究提出了一种基于纯 Transformer 的方法(TransGeo)来针对交叉视图图像地理定位中的局限性,通过全局信息建模和显式位置信息编码等优势,结合了注意力引导的非均匀裁剪方法以实现性能优化,结果表明该方法在城市和乡村数据集上取得了最优结果,并显著降低了计算成本。
Mar, 2022
利用深层卷积神经网络对地面和卫星俯视图进行交叉检索,实现图像地理定位,提出了一种新的损失函数,并采用多种匹配机制和旋转不变训练来提高图片匹配精度和效率。
Jul, 2016
该研究提出了一种无监督学习方法,从单眼正视图像生成语义鸟瞰地图,以在自动驾驶的各种决策任务中提供强大的遮挡推理能力,其使用了 1% 的标注数据和无额外标记数据,在 KITTI-360 和 nuScenes 数据集上表现与现有最先进的方法相当。
May, 2024