LSTM 姿势机
L2STM 是一种通过学习独立的隐藏状态转移来增强模型的时间动力学建模能力以及解决长期时间动态不稳定的问题的方法,结合多模态训练程序,在人类动作识别方面表现优于现有的基于 LSTM 和 / 或 CNN 的方法。
Aug, 2017
本论文提出和评估了几个深度神经网络架构,用于对比以往更长时间段内视频图像信息的组合。通过一些新的方法,包括卷积时间特征池化和循环神经网络结构,该论文指出最佳神经网络在 Sports 1 million 数据集(73.1%对 60.9%)和 UCF-101 数据集中(88.6%对 88.0%)及无附加光流信息(82.6%对 72.8%)上明显性能提高。
Mar, 2015
本文提出了一种基于多图卷积网络 (MGCN) 的三维人体姿势预测方法,该方法结合自然结构和序列注意力,同时捕获空间和时间信息,并在人体运动预测的基准数据集上表现出比现有方法更好的效果。
Apr, 2023
该研究使用 3D 骨架数据和卷积神经网络 (CNN) 和长短期记忆 (LSTM) 方法进行 3D 人体行为分析,证明 CNN 和 LSTM 的分数融合方法可以更有效地捕获空间 - 时间信息,并在 NTU RGB+D 数据集上取得了最先进的结果,在深度视频中的大规模 3D 人体动作分析挑战中排名第一。
Jul, 2017
本研究提出了一种通过将卷积网络与姿态机器学习框架相结合的系统设计来学习图像特征和图像相关的空间模型,以实现姿态估计的任务,并解决了训练过程中梯度消失的问题,其通过提供自然的学习目标函数来约束学习过程,最终在 MPII, LSP 和 FLIC 等标准基准测试中实现了最先进的性能表现并超越了竞争方法。
Jan, 2016
本文提出了一种基于多帧和时序信息的人体姿态估计方法。该方法包含三个模块:姿态时序合成器、姿态残差融合模块和姿态校正网络。在 PoseTrack2017 和 PoseTrack2018 数据集上进行的实验结果表明,该方法取得了最佳效果,并已发布代码以期促进未来的研究。
Mar, 2021
本研究提出了一种新的基于 CNN+LSTM 的摄像机姿态回归方法,该方法针对室内和室外场景,并且通过 CNN 可学习适合的特征表征来进行定位,使用 LSTM 作为特征向量的结构化降维方法,在定位性能方面取得了极大的改善,并针对基于 CNN 和 SIFT 的定位方法进行了广泛的定量比较,还提出了一种新的基于激光扫描的大型室内数据集,实验结果表明,我们的方法在定位图像时性能优于现有的深度体系结构,在具有挑战性的环境下都能够成功定位。
Nov, 2016
研究使用卷积神经网络 (CNNs) 和传递学习 (transfer learning) 进行 6 自由度 (6-DoF) 相机位姿估计,通过对数据集特征的研究改进 PoseNet 性能,尤其强调视野对图像分辨率的重要性,给出数据增强方案以减少过拟合,对 LSTM 单元的效果进行了研究,并最终结合这些修改方案优化了单目 CNN 相机姿态估计的性能。
Sep, 2019
本文在图像字幕生成方面,提出了一种仅利用卷积神经网络生成字幕的框架,通过并行计算,训练速度比基于 LSTM 的模型快 3 倍,同时在 MSCOCO 图像字幕数据集上获得了比 LSTM 更高的评估得分。
May, 2018
本文提出了一种基于 LSTM 网络,使用时间信息提高 2D 关节点坐标序列估算 3D 姿势的鲁棒性和一致性,实验在 Human3.6M 上提高了 12.2% 的精度。
Nov, 2017