利用基于深度学习的关键点预测增强视频运动转换应用的带宽效率

Mar, 2024

利用基于深度学习的关键点预测增强视频运动转换应用的带宽效率

Enhancing Bandwidth Efficiency for Video Motion Transfer Applications using Deep Learning Based Keypoint Prediction

Xue Bai, Tasmiah Haque, Sumit Mohan, Yuliang Cai, Byungheon Jeong...

TL;DR我们提出了一个基于深度学习的新型预测框架，用于增强视频应用中的带宽减少，例如视频会议、虚拟现实游戏和患者健康监测的隐私保护。通过使用学习到的关键点及其局部仿射变换来表示动态对象，我们使用第一阶段运动模型（FOMM）对复杂运动进行建模。关键点由一个自监督的关键点检测器提取，并按照视频帧组织成时间序列。通过使用变分递归神经网络（VRNN）对关键点进行预测，以使源设备上的传输帧率更低。然后，使用光流估计器和生成器网络将预测的关键点合成为视频帧。通过在三个不同的数据集上演示基于关键点的表示与基于 VRNN 的预测在视频动画和重建方面的有效性，我们的结果显示了我们提出的架构在实时应用中的有效性，使得现有基于关键点的视频运动转换框架的带宽减少多达 2 倍，而几乎不影响视频质量。

Abstract

We propose a deep learning based novel prediction framework for enhanced bandwidth reduction in motion transfer enabled video applications

deep learning bandwidth reduction motion transfer keypoint detection video frames

发现论文，激发创造

通过深度运动转换动画任意对象

介绍一种采用深度学习方法进行图像动画生成的框架，包含关键点检测模块，密集运动预测模块和运动转移模块，并证明了该方法在多个基准数据集上优于现有的图像动画和视频生成方法。

Dec, 2018

无监督关键点学习用于指导类别条件视频预测

本文提出一种以单个图像和动作类别为条件的深度视频预测模型，通过检测物体关键点并将关键点序列预测为未来运动，然后通过平移输入图像来生成未来帧。该方法通过无监督方式训练来检测任意对象的关键点，并使用原始视频的检测关键点作为伪标签学习物体运动，实验结果表明，我们的方法可以应用于各种数据集，而不需要对视频中的关键点进行标注，检测到的关键点类似于人工标注的标签，并且与以前的方法相比，预测结果更加真实。

Oct, 2019

TKN: 基于 Transformer 的关键点预测网络用于实时视频预测

本文介绍了一种基于 transformer 框架的关键点预测神经网络，该网络是一种无监督学习方法，通过约束信息提取和并行预测方案来提高预测过程，是目前我们所知的第一个实时视频预测解决方案，能够以比现有方法快 11 倍的速度进行预测，并将内存消耗降低 17.4％，并在 KTH 和 Human3.6 数据集上达到了领先水平的预测性能

Mar, 2023

高效视频预测的精准格点学习

该论文提出了一种新的网格关键点学习框架，通过引入随机性，生成长期高质量预测，有效地降低计算资源消耗，并在机器人辅助手术数据集上验证了该方法的有效性。

Jul, 2021

图像动画的一阶运动模型

本文描述了一种基于自监督学习的框架，可以将一个源图像中的对象根据驱动视频的运动进行动画处理，而不需要使用任何注释或有关特定对象的先前信息。使用一个经过训练的视频集合，我们的方法可以应用于此类对象的任何对象。

Feb, 2020

增强型运动向量卷积神经网络实时动作识别

通过用运动矢量直接代替计算光流来加速双流架构，然后通过初始化转移、监督转移和它们的组合，将光流 CNN 中学习的知识转移到运动矢量 CNN 中，以提高后者的性能。实验结果表明，该方法的识别性能可与最先进的方法相媲美，同时处理速度比原始的双流方法快 27 倍。

Apr, 2016

基于单目视频的高保真度神经人类动作转移

该文提出了一种新的框架，通过训练一系列递归深度神经网络从 2D 姿势及其时间导数来生成人类形状、结构和外观的中间表示，从而解决了视频中松散的服装动态和细节的生成问题，实现了高保真的人类动作转移。

Dec, 2020

基于关键点消息传递的视频行人重识别

本文提出了一种基于人体关节特征的人物重识别方法，通过采用图卷积网络与卷积神经网络相结合的方式解决了运动带来的误差问题。在 MARS 数据集和 PoseTrackReID 数据集上，该方法在 top-1 准确性和平均精度方面均优于前人工作，定义了新的最先进方法。

Nov, 2021

学习预测和优化残差运动用于图像生成视频

本文提出了一个两阶段的生成框架来解决图像到视频转换的问题，其中视频从结构生成并通过时间信号进行调整。通过在面部表情重定位和人体姿势预测这两个任务中取得比现有方法优秀的结果，证明了我们方法的有效性。

Jul, 2018

基于增强相关匹配的视频帧插值

该研究提出了一种基于 DNN 的新框架，名为 ECM-VFI，用于高分辨率视频帧插值，包括具有大规模运动和遮挡的 4K 视频数据。通过递归追踪最大相关位置来改善光流更新的准确性。采用前向曲面匹配可以通过排除遮挡区域周围的错误曲面特征来提高更新精度和提高细化和混合网络生成的任意时间点的中间帧的质量。实验结果显示，该方案在 4K 视频数据和低分辨率基准数据集方面比以前的作品表现更优，并且具有最少的模型参数。

Nov, 2021