高效视频预测的精准格点学习
本文提出一种以单个图像和动作类别为条件的深度视频预测模型,通过检测物体关键点并将关键点序列预测为未来运动,然后通过平移输入图像来生成未来帧。该方法通过无监督方式训练来检测任意对象的关键点,并使用原始视频的检测关键点作为伪标签学习物体运动,实验结果表明,我们的方法可以应用于各种数据集,而不需要对视频中的关键点进行标注,检测到的关键点类似于人工标注的标签,并且与以前的方法相比,预测结果更加真实。
Oct, 2019
提出了一种局部可微的关键点检测模块,能够输出精确的亚像素关键点,用于在各种任务中达到与现有最先进方法相当的性能,同时大大减少了推理时间。
Dec, 2021
通过训练图网络选择一组分散但具有相似分布投票的关键点,从而提高姿势估计的准确性和效率。通过回归网络学习关键点算法,所学习的投票可以与之前的启发式算法相比更准确地回归关键点位置。实验结果表明,KeyGNet 选择的关键点在所有七个数据集上的所有评估指标都提高了准确性,特别是在具有挑战性的 Occlusion LINEMOD 数据集上。当使用 KeyGNet 的关键点进行单物体到多物体的训练时,性能明显提高,从而消除了 SISO-MIMO 差距。
Aug, 2023
本研究针对无监督的视频对象结构和动态提取及预测的挑战,采用基于关键点的图像表示方法,并在关键点的动力学模型上进行学习,以实现像素空间中的稳定学习和错误复合的避免。该方法在像素级视频预测和需要物体级运动动态理解的下游任务方面均优于非结构化表示,并在多个数据集和任务中进行了评估和验证。
Jun, 2019
我们提出了一个基于深度学习的新型预测框架,用于增强视频应用中的带宽减少,例如视频会议、虚拟现实游戏和患者健康监测的隐私保护。通过使用学习到的关键点及其局部仿射变换来表示动态对象,我们使用第一阶段运动模型(FOMM)对复杂运动进行建模。关键点由一个自监督的关键点检测器提取,并按照视频帧组织成时间序列。通过使用变分递归神经网络(VRNN)对关键点进行预测,以使源设备上的传输帧率更低。然后,使用光流估计器和生成器网络将预测的关键点合成为视频帧。通过在三个不同的数据集上演示基于关键点的表示与基于 VRNN 的预测在视频动画和重建方面的有效性,我们的结果显示了我们提出的架构在实时应用中的有效性,使得现有基于关键点的视频运动转换框架的带宽减少多达 2 倍,而几乎不影响视频质量。
Mar, 2024
利用文本到图像扩散模型的新知识,我们的核心思想是找到使生成模型始终关注图像中的紧凑区域(即关键点)的文本嵌入。通过优化文本嵌入,使去噪网络内的交叉注意力图定位为具有小标准差的高斯分布,我们在多个数据集上验证了性能,包括 CelebA、CUB-200-2011、Tai-Chi-HD、DeepFashion 和 Human3.6m 数据集。在非对齐和不太精选的数据上,我们取得了显著改进的准确性,有时甚至超过了监督学习方法。我们的代码公开可用,可以在我们的项目页面找到。
Nov, 2023
本文提出了一种简单的深度学习框架,可以同时预测关键点的位置和可见性,并利用这些来实现细粒度分类的最新性能。作者表明,通过将预测条件设置为具有足够图像支持的物体提议,我们的方法可以在不需要复杂的空间推理的情况下良好地完成。我们的关键点定位和可见性预测与现有的先进方法相比,在有或没有鸟类边界框的情况下均表现出色,超过 2%。
Jul, 2015
本文介绍了一种基于 transformer 框架的关键点预测神经网络,该网络是一种无监督学习方法,通过约束信息提取和并行预测方案来提高预测过程,是目前我们所知的第一个实时视频预测解决方案,能够以比现有方法快 11 倍的速度进行预测,并将内存消耗降低 17.4%,并在 KTH 和 Human3.6 数据集上达到了领先水平的预测性能
Mar, 2023
本文提出了 KeypointNet,这是一个端到端的几何推理框架,用于学习一组最优的类别特定 3D 关键点及其检测器。 通过对一张单独图片,KeypointNet 提取出用于下游任务优化的 3D 关键点,我们在 3D 姿势估计方面展示了这种框架,并提出了一个可微的目标,以寻求在两个对象视图之间恢复相对姿态的最佳关键点集。我们的模型在对象类别的不同视角和实例之间发现了几何和语义一致的关键点,重要的是,我们发现我们的端到端框架在不使用地面真值关键点注释的情况下胜过使用相同神经网络架构的完全监督基线在姿势估计任务上,在 ShapeNet 的汽车,椅子和飞机类别上可视化出发现的 3D 关键点。
Jul, 2018