虚拟对应:以人类作为极端视角几何的线索
通过利用人与场景的交互可有效提高单目视频的 3D 场景重建,同时优化人的姿态估计,本论文基于三种 HSI 约束条件,即深度排序、是否穿插目标、接触面,使用优化方法再形成一致、物理合理且功能性 3D 场景布局,并对其在 PROX 和 PiGraphs 数据集上进行定量定性评估。
Mar, 2022
从两个或多个视图中提取场景的点对应是一个基本的计算机视觉问题,对于相对相机位姿估计和运动结构具有特殊重要性。我们通过使用对应于传递线上的假设匹配来放宽已有模型需要的先验知识约束,并提出了一种新颖的引导方法,从而无需真实的三维结构信息即可对模型进行微调,并在新数据上获得最先进的结果。
Jan, 2024
提出了一个基于提升算法的方法来学习一个对应结构,以处理由于摄像机视角变换或人体姿态变化而导致的空间错配问题。学习的对应结构可以不仅可以捕获摄像机之间的空间对应模式,还可以处理个体图像的视角或人形态变化。此外,还提出了一种全局匹配过程,通过在所学习的对应结构上整合全局匹配约束,来排除图像补丁匹配过程中的跨视角错配,从而实现更可靠的图像匹配得分。
Apr, 2015
通过引入第三种相应类型(反射相应)并展示其能够通过观察物体而不依赖于背景来帮助估计相机姿态,本文展示了计算机视觉长期以来依赖于像素相应和三维相应的另一种可能。通过在物体表面反射的场景中进行点相应,解决了由几何和辐射导致的像素和三维相应的错误,并提出了一个神经网络和一个 RANSAC 算法来通过对象外观实现鲁棒且精确的联合相机姿态和对象形状估计。该方法拓展了诸多后续任务的范围,包括外观建模的相机姿态估计(例如 NeRF)和反射物体的动作估计(例如道路上的汽车),因为它减少了对重叠背景的要求。
Dec, 2023
本文介绍了一种基于增强学习的方法来学习对应关系结构,进而解决人物重新识别中由于摄像视角变化和人体姿势变化导致的空间配准问题,并通过引入全局约束性匹配过程和多结构方案来提高精度。
Mar, 2017
本文介绍了一种名为 HVC 的混合静态动态视觉对应框架,用于自监督视频对象分割。HVC 从静态图像中提取伪动态信号,实现了高效且可扩展的 VOS 模型。该方法利用极简的全卷积架构在图像裁剪视图中捕捉静态动态视觉对应关系,并通过统一的自监督方法学习静态 - 动态特征相似性的视觉表示,从而实现联合静态和动态一致性表示的学习。HVC 仅需要一次训练会话使用静态图像数据,显著减少内存消耗(约 16GB)和训练时间(约 2 小时),并在多个自监督 VOS 基准和附加视频标签传播任务中实现了最新的性能。
Apr, 2024
本文提出了一种利用深度学习框架将每个像素映射到特征空间的方法来构建人类图像之间的密集对应关系,并提出了新的损失函数来推动特征根据它们在表面上的测地距离分开,实现视觉上相似的部分差异化以及通过统一的特征空间对不同的主题进行对齐,实验结果表明,该特征空间可以对图像之间产生准确的对应关系,并具有明显的推广能力。
Mar, 2021
该研究论文讨论了通过多个校准相机捕捉的近距离互动中多个个体的姿势重建的挑战性任务,并提出了一种整合了学习为基础的姿势估计组件和相应的训练和推断策略的系统。该系统利用多视图 2D 关键点热图作为输入,使用 3D 条件体积网络重建每个个体的姿势,通过合成大规模的模拟测试场景中真实数据分布的训练数据集,实现了对姿势准确性的显著提升,并且在不同相机配置和人群规模下具有很好的泛化性能。
Jan, 2024