- 基于深度学习的单目图像和视频深度估计方法:综述
该论文综述了基于深度学习的单个 RGB 图像和视频的深度估计方法,包括输入输出模态、网络结构和学习方法的分类,历史里程碑,以及现有方法使用的流程、数据集和评估指标。
- 双视:几何引导的深度估计
我们的方法通过在网络中添加最新的 3D 几何数据作为额外输入,结合之前的几何提示,利用深度和 3D 场景重建领域中的先前工作,实现了与实时交互速度相比达到最先进的深度估计和场景重建。
- PT43D:基于单一高度模糊 RGB 图像生成三维形状的概率变换器
提出了一种基于 Transformer 的自回归模型,根据可能以高度模糊的观测图像为基础的 RGB 图像,生成 3D 形状的概率分布,该模型采用交叉注意力机制,有效地识别形状生成的最相关兴趣区域,并在合成数据和真实数据上得到优于现有方法的结 - 推动增强现实中的 6D 姿态估计 — 克服非受控图像的投影模糊
本研究主要解决在增强现实(AR)中准确估计六自由度姿态的挑战,我们提出了一种新颖的方法,通过分解 z 轴平移和焦距的估计,利用 FocalPose 架构中内置的神经渲染和比较策略,从无控制的 RGB 图像中准确估计六自由度姿态,并显著提高了 - HUGS: 通过高斯分布点绘制进行城市环境全面三维场景理解
基于 RGB 图像的城市场景的整体理解是一个具有挑战性但重要的问题,本文提出了一种利用三维高斯点云分布的新型管道,通过联合优化几何、外观、语义和动作,实现对城市场景的整体理解,并在实验证明了我们方法的有效性。
- PoIFusion: 基于兴趣点融合的多模态 3D 目标检测
我们提出了 PoIFusion,这是一个简单而有效的多模态 3D 物体检测框架,用于在兴趣点(简称 PoI)处融合 RGB 图像和 LiDAR 点云的信息。
- SLCF-Net: 基于 3D 循环 U-Net 的顺序式激光雷达 - 摄像机融合的语义场景补全
SLCF-Net 是一种新颖的方法,通过顺序融合 LiDAR 和相机数据来进行语义场景补全任务,从 RGB 图像序列和稀疏的 LiDAR 测量中联合估计场景中的缺失几何和语义信息,通过预训练的 2D U-Net 对图像进行语义分割,并从基于 - 无纹理物体识别:一种基于边缘的方法
应用图像处理技术创建了由边缘特征、特征组合和增强的 RGB 图像构成的 15 个数据集,在这些数据集上训练的四个分类器中,以 RGB 图像和三种边缘特征的组合获得的数据集表现最佳,其中 HED 边缘的性能相对于 Canny 或 Prewit - 揭示深度:一种多模态融合框架用于挑战场景
本文提出了一种新颖的方法,通过学习框架,识别和整合主导的跨模态深度特征,独立计算粗略深度图,并使用置信度损失和多模态融合网络进行端到端的深度估计,从而在各种困难情景中展示了鲁棒的深度估计能力。
- 扩展用于立体视觉的 6D 物体姿态估计器
使用稠密特征从 RGB 图像中直接回归物体的 6D 姿态是一个困难的任务,但最近的方法通过利用稠密特征在直接回归姿态方面取得了最先进的结果。使用立体视觉可以减少姿态的模糊性和遮挡,并且可以直接推断物体的距离。为了扩展立体的 6D 物体姿态估 - MM卧姿估计综述
对现有数据集和方法进行评审,旨在展示卧床人体姿势估计领域以往研究的局限性、当前挑战,并为未来工作提供指导性见解。
- 基于 Pix2Pix GAN 的多模态人群计数
本文提出使用生成对抗网络(GANs)从彩色(RGB)图像自动生成热红外(TIR)图像,并同时使用两者训练人群计数模型以提高精确度。在多个人群计数模型和基准人群数据集上进行的实验证明了显著的精确度提升。
- 基于数据驱动的光谱重建的局限性 -- 一种光学感知分析
通过对 RGB 图像进行数据驱动的光谱重建方法的分析,我们发现当前模型在噪声、压缩和变色上存在限制,然而,通过异色数据增强和光学镜头像差可以提高 RGB 图像对色差信息的编码,从而带来更高性能的光谱成像和重建方法。
- 现代舞应用中 3D 人体姿势和形状估计方法综述
使用 RGB 图像进行三维人体形状和姿势估计是一个具有挑战性的问题,具有增强 / 虚拟现实、医疗保健和健身技术以及虚拟零售等潜在应用。本研究调查了并比较了当代舞蹈和表演艺术领域中的三维人体形状和姿势估计方法,重点关注人体姿势和着装、摄像机视 - VQ-HPS:在向量量化潜变空间中的人体姿态和形状估计
通过引入一种低维离散潜在表示的独特方法,我们将人体姿态和形状估计 (Human Pose and Shape Estimation,HPSE) 问题作为一个分类任务来解决,预测离散潜在表示,从而实现对人体网格的编码。我们的模型 VQ-HPS - 多模态工业异常检测通过交叉模态特征映射
这篇论文探讨了工业多模态异常检测任务,利用点云和 RGB 图像来定位异常。我们介绍了一种新颖且快速的框架,它学习将一个模态中的特征映射到另一个模态的正常样本上。在测试时,通过定位观察到的特征和映射特征之间的不一致性来检测异常。大量实验证明, - GigaPose:通过一对应关系进行快速且鲁棒的新对象姿态估计
GigaPose 是一种快速、稳健、准确的基于 CAD 的 RGB 图像中新颖物体姿态估计方法,通过利用 CAD 模型的渲染图像来恢复平面外旋转,然后使用补丁对应关系估计其他四个参数。
- 基于 RGB-D 数据的工业异常检测双支路重构网络
基于 RGB-D 输入,我们提出了一种轻量级的双分支重建网络 (DBRN),通过学习正常和异常样本之间的决策边界,使用深度图而不是点云输入来消除两种模态之间的对齐要求,并引入了一个重要性评分模块来辅助融合这两种模态的特征,从而在 MVTec - ICCVLRRU:用于深度补全的长短递归更新网络
我们提出了一种轻量级深度学习网络框架,Long-short Range Recurrent Updating (LRRU) 网络,通过联合考虑 RGB 图像和待更新的深度图进行学习,动态调整核的范围以捕获长程和短程依赖关系,并最终将粗糙但完 - ImageManip: 图像基于机器人操作的可支配性导向下一视角选择
基于图像的机器人操纵系统,利用多个视角捕捉目标物体,推断深度信息以补充其几何信息,采用几何一致性融合视角,实现精确操纵决策。