Aug, 2015

深度网络在 3D 人体姿态估计中的最大边界结构化学习

TL;DR本文提出了一种利用深度神经网络进行结构化输出学习的方法,用于从单眼图像中估计 3D 人体姿势。该方法将图像和 3D 姿势作为输入,通过卷积神经网络将图像特征提取出来,并通过两个分支网络将图像特征和姿态转换为联合嵌入,然后将联合嵌入相乘得到一个分数值。通过最大间隔代价函数来联合训练联合嵌入和分数函数,实现的网络为一种特殊形式的结构化支持向量机,它是使用深度神经网络区别性地学习联合特征空间。在 Human3.6m 数据集上测试了这个框架,并与其他最近的方法进行了比较,得到了最先进的结果。最后,我们展示了图像 - 姿态嵌入空间的可视化,证明了网络已经学习到了高水平的身体方向和姿态配置。