- ECCV无地图视觉重定位:基于单张图像的度量位姿
提出了一种无需建立场景特定三维地图的场景单图参考图像重定位技术,并通过对世界范围内的小型艺术品,如雕塑、壁画和喷泉的构建新数据集,测试了现有算法的可行性及基准结果,并发现无地图重定位仍需新型创新技术的挑战。
- VMRF: 视图匹配神经辐射场
VMRF is an innovative NeRF that can effectively train without requiring prior knowledge in camera poses or camera pose d - SAMURAI:利用不受约束的真实世界的图像集获取外形和材料
该论文提出了一种联合优化框架,可以在未知摄像机姿态和野外环境下准确地估计形状、辐射度和图像相机姿态和光照。
- 高斯激活辐射场用于高保真重建和姿态估计
本文介绍了一种新的基于高斯激活函数的神经辐射场模型 ——Gaussian Activated neural Radiance Fields(GARF),该模型不需要先验的相机位姿信息,且在高保真重建和位姿估计方面性能优于当前的最先进技术。
- 使用三维相机投影优化重叠覆盖的相机布局
本文提出一种计算相机 6 自由度姿态以实现用户定义覆盖的方法,其中相机放置问题建模为组合优化问题,并通过混合整数线性规划问题形式化非线性代价函数来最小化实现的覆盖与期望覆盖之间的平方误差,利用相机镜头模型将相机视图投影到 3D 体素图中计算 - CVPR解耦使得弱监督本地特征更好
本文提出了针对弱监督本地特征学习量身定制的解耦式描述 - 检测管道,通过引入按线查找策略以明确利用相机姿态信息来学习更好的描述符,并解耦检测步骤直到学习到具有辨别能力和鲁棒性的描述符后推迟其进行,其方法名为 PoSFeat(相机姿态监督特征 - ICCV视频自编码器:静态三维结构和运动的自我监督解缠
本论文提出了一个自监督学习的视频自编码器,能够从视频中学习出 3D 结构和相机姿态的解耦表示,通过重组这些表示来实现诸如新视角合成、相机姿态估计以及运动跟踪的任务。
- DROID-SLAM:基于深度学习的单目、双目、RGB-D 相机的视觉 SLAM
DROID-SLAM 是一个基于深度学习的 SLAM 系统,具有高精度和鲁棒性,在测试时可以利用立体或 RGB-D 视频来提高性能。
- ICCVPICCOLO:基于点云的全向定位
本文提出了简单高效的 PICCOLO 算法,通过对点云与全景图片进行配准,利用采样损失将实现了全方位定位的单张图像查询。相比传统的基于像素点的光度损失函数,基于采样的损失函数能够有效地克服全向图像的严重视觉扭曲,并利用全局上下文处理具有挑战 - 从单幅图像中综合估计三维人体和场景网格
本文提出了一种端到端可训练模型,以单个 RGB 图像感知 3D 场景,估计相机姿态和室内布局,并重建人体和物体网格。通过对所有估计方面施加全面而复杂的损失,我们证明了我们的模型优于现有的人体网格方法和室内场景重建方法。据我们所知,这是第一个 - ECCV手持相机图像拼接和矫正
本文提出了一种新的微分单应矩阵,能够在滚动快门摄像机中考虑不同的扫描线相机姿态,并演示其在进行 RS 感知的图像拼接和矫正方面的实际应用。
- CVPR相机姿态的影响:通过减轻姿态分布偏差改善深度预测
提出两种新技术解决单目深度预测模型因训练数据相机位置偏差带来的泛化性能下降问题,一种基于数据增强的方法,一种基于条件模型的方法,实验证明两种方法能够显著提高模型在拍摄位置不同的图像中的预测效果和泛化性能。
- ECCV通过连续多模态推断在模糊场景中进行的 6D 相机重定位
我们提出了一种多模式相机重新定位框架,使用连续混合模型定义在相机位置流形上的模糊不确定性,解决了复杂环境下相机位置回归的局限性,并在新数据集上进行了全面的评估。
- 跨宽基线的图像匹配:从理论到实践
本文介绍了一个用于本地特征与鲁棒估计算法的全面基准测试,旨在通过相机位姿的准确性作为主要指标。我们的管道模块化结构允许易于集成、配置和组合不同的方法和启发式算法。同时我们展示了如何嵌入数十种流行算法进行评估,进而表明经典算法在适当的设置下可 - CVPR单个仿射对应关系的相对位姿最小解
利用特征点之间的仿射变换来解决相对位姿估计问题,提出了四种方法并证明了它们的有效性,可以在 RANSAC 循环中用于异常值检测和初始运动估计。
- ICCV应用专家样本一致性算法进行相机重定位
利用神经网络估算 2D 图像与已知 3D 环境之间的对应关系,并使用 Robust Estimator 来拟合 6D 相机姿态,同时采用 MoE 和 ESAC 策略提高对数据中异常点和问题域的鲁棒性。
- ICCV单目视频中几何约束的自监督学习:连接光流、深度和相机
GLNet 是一种自监督框架,可从单目视频中学习深度估计、光流、相机姿态和内在参数,包括设计考虑多种几何约束及自适应光度损失的新型损失函数、扩展模型以预测相机内参、提出几种在线细化策略。在 KITTI 和 Cityscapes 数据集上,G - 神经网络如何从单张图像中感知深度?
本研究通过对 Godard 等人开发的 MonoDepth 网络的分析,探究其利用视觉线索进行深度估计的技术特性,并发现该网络忽略已知障碍物的表面大小,而是利用其在图像中的垂直位置进行深度估计,但也有一定局限性。研究进一步表明,MonoDe - 强健性遇上深度学习:一种端到端的混合流水线用于无监督学习自我运动
本文提出一种方法,将深度学习光流和单目视差的预测与基于模型的优化过程相结合,用于瞬时相机姿态估计,并在 KITTI 数据集上展示了最新的结果
- 合作式整体场景理解:统一 3D 物体、布局和相机位姿估计
本文提出了一种端到端模型,可以仅依靠单个 RGB 图像实时同时解决 3D 室内场景理解中的物体边界框、房间布局和相机姿势问题,并通过对目标进行参数化和协同训练等手段,显著提升了 3D 物体检测、3D 布局估计、3D 相机姿势估计和整体场景理