Mar, 2024

利用基于深度学习的关键点预测增强视频运动转换应用的带宽效率

TL;DR我们提出了一个基于深度学习的新型预测框架,用于增强视频应用中的带宽减少,例如视频会议、虚拟现实游戏和患者健康监测的隐私保护。通过使用学习到的关键点及其局部仿射变换来表示动态对象,我们使用第一阶段运动模型(FOMM)对复杂运动进行建模。关键点由一个自监督的关键点检测器提取,并按照视频帧组织成时间序列。通过使用变分递归神经网络(VRNN)对关键点进行预测,以使源设备上的传输帧率更低。然后,使用光流估计器和生成器网络将预测的关键点合成为视频帧。通过在三个不同的数据集上演示基于关键点的表示与基于 VRNN 的预测在视频动画和重建方面的有效性,我们的结果显示了我们提出的架构在实时应用中的有效性,使得现有基于关键点的视频运动转换框架的带宽减少多达 2 倍,而几乎不影响视频质量。