RGB-D 行动识别的深度聚合网络协同训练
使用卷积神经网络,采用 RGB-D 架构,通过两个不同模式的 CNN 处理流程结合延迟融合网络来识别物体,同时引入多阶段训练方法以及进行数据增强方案,使得处理 RGB-D 图像更加健壮,同时在真实嘈杂环境中取得了最先进的识别结果。
Jul, 2015
本论文提出了三种简单、紧凑而有效的深度序列表示,称为 DDI、DDNI 和 DDMNI,用于孤立和连续行为识别。在这些动态图像上,设计了基于 ConvNet 的方法进行行动识别,取得了三个大型数据集上的最先进结果,即 Large-scale Continuous Gesture Recognition Dataset(Jaccard 指数 0.4109)、Large-scale Isolated Gesture Recognition Dataset(59.21%)和 NTU RGB + D Dataset(跨主体 87.08%和跨视角 84.22%),即使只使用深度模态。
Mar, 2018
本研究利用卷积神经网络和弱监督方法,提出了一种能够在有限深度图像条件下学习具有较强区分性的深度特征,从而实现了 RGB-D 场景识别的最新成果,达到了最好的表现。
Jan, 2018
本文提出了一种基于 RGB 和深度视频序列的空间与时间信息互补建模方法,采用卷积二流一致投票网络(2SCVN)和 3D 深度显著性 ConvNet 流(3DDSN)的并行聚合结构,极大提高了细微运动特征的识别准确性,结果在 Chalearn IsoGD 基准测试中优于领先者 10.29%,在 RGBD-HuDaAct 数据集上取得了最佳效果(96.74%),同时进行了定量实验和定性分析。
Nov, 2016
该研究介绍一种基于深度学习的 RGB-D 场景识别方法,提出了一种深度学习模型训练的两步骤方法和一种新的 RGB-D 视频数据集,实现了在 RGB-D 图像 (NYUD2 和 SUN RGB-D) 和视频 (ISIA RGB-D) 场景识别方面的最优表现。
Sep, 2018
本文提出了一种基于 RGB-D 视频的自动活动识别的深度模型,使用 3D 卷积和最大池化算子,结合激活函数以及学习出活动的时间结构,该模型可以直接作用在原始输入上进行活动分类,而且还允许动态调整模型结构以适应人类活动的时间变化,并在挑战性场景下验证了该方法的优越性,同时还给出了一个大型的 RGB-D 视频人类活动数据库。
Jan, 2015
本文提出一种新的深度自编码器共享特定特征分解网络,将多模态信号分解成一系列组件,进而结合特征结构提出了一种结构化稀疏学习机以获得更好的分类性能,实验证明该方法在动作识别方面最先进。
Mar, 2016
本文提出了一个使用 RGB-D 图像进行对象和场景识别的新方法,使用深度神经网络取代手工特征提取器,并利用卷积神经网络提取的视觉特征和递归神经网络高效转换为高级别特征,通过软投票方法进行多模态融合来实现一致的分类结果,实验结果表明该方法在对象和场景识别任务中均取得了卓越或同等水平的性能。
Apr, 2020
基于轻型 RGBD 相机的立体视觉在各个领域中被广泛应用,本文提出了一种基于注意力引导门卷积网络(AGG-Net)的深度图像补全新模型,通过从原始深度图和相应的 RGB 图像中获取更准确可靠的深度图,实验结果表明我们的方法在流行的评估基准 NYU-Depth V2,DIML 和 SUN RGB-D 上优于现有方法。
Sep, 2023
该研究提出了一种新颖的深度监督神经网络模型,利用了视觉跟踪,并结合了深度卷积神经网络(CNN)和循环神经网络(RNN)的鲁棒性来进行视频动作识别任务。研究结果表明,该模型在 UCF101 和 HMDB51 这两个具有挑战性的数据集上表现出色,仅使用卷积特征就可以达到最先进的水平。
Jul, 2016