OFVL-MS：多个室内场景下的一次性视觉定位

Aug, 2023

OFVL-MS：多个室内场景下的一次性视觉定位

OFVL-MS: Once for Visual Localization across Multiple Indoor Scenes

Tao Xie, Kun Dai, Siyi Lu, Ke Wang, Zhiqiang Jiang...

TL;DR利用多任务学习方式预测场景中的相机姿态，提出了 OFVL-MS 统一框架，通过设计适应性共享策略和梯度归一化算法，在减少存储成本和解决梯度冲突的基础上提高了视觉定位性能。

Abstract

In this work, we seek to predict camera poses across scenes with a multi-task learning manner, where we view the localization of each scene as a new task. We propose OFVL-MS, a unified framework that dispenses with the traditional practice of training a model for each individual scene and relieves gradient conflict induced by optimizing multiple scenes colle

camera poses prediction multi-task learning visual localization gradient conflict parameter sharing

发现论文，激发创造

用于视觉定位和里程计的深层辅助学习

本研究提出了一种新的基于卷积神经网络的多任务全局姿态矫正和里程计评估方法 VLocNet，该模型结构紧凑、可实现实时推断，并采用了一种新颖的辅助损失函数来利用相关位姿信息进行训练，在室内和户外数据集上的实验结果表明，该模型具有可与 SIFT 算法媲美、甚至优于其表现的定位精度。

Mar, 2018

VLocNet ++: 面向语义视觉定位和里程计的深度多任务学习

本研究提出了 VLocNet ++ 体系结构，采用多任务学习方法来利用学习语义，回归 6-DoF 全局姿势和里程计之间的相互关系，以使每个任务都获得相互的好处。我们的网络通过同时将世界的几何和语义知识嵌入姿势回归网络来克服上述限制。大量实验证明，我们的方法均能胜过以本地特征为基础的方法，同时实现多个任务并在挑战性场景中表现出相当的鲁棒性。

Apr, 2018

MS-Net: 多场景运动预测的多路径稀疏模型

提出了一种名为 MS-Net 的多场景网络，通过进化过程训练一种多路径稀疏模型，实现对不同场景下行人运动的预测，实验结果表明，MS-Net 在行人运动预测数据集（如 ETH 和 UCY）上优于现有的最先进方法，并在 INTERACTION 挑战中排名第二。

Mar, 2024

MVPSNet：快速通用的多视角光度立体

我们提出了一个快速且通用的解决多视图光度立体 (MVPS) 问题的方法，称为 MVPSNet。我们的方法通过一个特征提取网络有效地结合同一视图下不同光照条件下的图像，从阴影线索中提取几何特征用于立体匹配。我们通过介绍一种新的人工合成数据集 sMVPS 来训练我们的方法，并展示了在纹理缺失区域中提取特征的有效性。结果表明，我们的方法的重建结果与一个最先进的 MVPS 方法 PS-NeRF 相似，但推理速度快 411 倍（105 秒与 12 小时），具有一般化的可训练能力。

May, 2023

多视角环境下的在线人员追踪学习策略

介绍了一种名为 MVSparse 的合作式多人跟踪框架，它由一个精心设计的管道组成，将基于边缘服务器的模型与在各个摄像头上操作的分布式轻量级强化学习代理相结合，通过选择每个帧内基于历史相机数据和相邻摄像机的检测结果的信息块来显著减少计算负载和通信开销，通过将各个视角的输入投影到共同的地面平面上并应用深度检测模型，MVSparse 在多视角视频中优化地利用了时间和空间冗余；实验证明，与基准方法相比，MVSparse 将整体推理时间加速了 1.88 倍和 1.60 倍，同时仅对跟踪准确性造成了 2.27% 和 3.17% 的轻微损失，展示了其在高效多摄像头跟踪应用中的潜力。

Dec, 2023

基于对象中心神经散射函数的多对象操作

本文介绍一种将基于物体中心的神经散射函数作为模型预测控制框架中的物体表示的方法，在组成多物体环境下不断变化的光照条件下，通过结合反参数估计和基于图形的神经动力学模型的方法，大大提高了模型的控制性能和推广能力。

Jun, 2023

LS-VO：学习稠密光学子空间用于鲁棒地视觉里程计估计

本文提出了一种新颖的深度网络结构来解决相机自我运动估计问题，并使用自编码器网络找到光流场的非线性表示，从而显著提高了估计性能。

Sep, 2017

MVSA-Net：用于稳健且可部署的轨迹生成的多视图状态 - 动作识别

从多个视角观察任务活动，并将它们融合在一起，以更好地识别每个帧中的状态和动作。多视角 SA-Net 在多个领域的性能评估中表明，在遮挡的情况下比单视角 MVSA-Net 和其他基准方法更准确地识别状态 - 动作对。

Nov, 2023

自监督深度视觉里程计与在线自适应

本文提出了一种基于在线元学习算法的自监督 Visual Odometry（VO）方法，利用了卷积长短时记忆（convLSTM）和特征对齐技术，实现了 VO 网络的持续适应新环境和快速自我更新。实验证明，该方法在未见过的户外场景、虚拟到真实世界和室外到室内环境转换中都明显优于基于自监督学习的 VO 基线方法。

May, 2020

GMSF: 全局匹配场景流

本文提出了一种使用单尺度全局匹配的方法，使用混合的本地 - 全局 - 交叉转换器架构分解了特征提取步骤，以精确稳健的特征表示的可靠特征相似性为关键，并在多个场景流估计基准测试中取得了最新的最先进的性能。

May, 2023