基于关键点的视频理解中，学习更高阶的物体交互

ICCVMay, 2023

基于关键点的视频理解中，学习更高阶的物体交互

Learning Higher-order Object Interactions for Keypoint-based Video Understanding

Yi Huang, Asim Kadav, Farley Lai, Deep Patel, Hans Peter Graf

TL;DR本文介绍了一种名为 KeyNet 的行动定位方法，仅利用基于目标的关键点数据来捕获场景中的上下文，从而在不使用任何 RGB 信息的情况下从对象和人类关键点中建立结构化中间表示，演示了如何从对象关键点中建模以恢复使用 AVA、动力学数据集上的关键点信息造成的上下文损失。

Abstract

action recognition is an important problem that requires identifying actions in video by learning complex interactions across scene actors and objects. However, modern deep-learning based networks often require s

action recognition deep-learning keynet object-based keypoint information context modeling

发现论文，激发创造

参与和交互：视频理解的高阶物体交互

本文提出了一种有效学习任意子对象之间的高阶相互作用的方法，用以改善细粒度视频理解的准确性，包括动作识别和视频字幕生成等领域，在两个大规模数据集 Kinetics 和 ActivityNet Captions 上取得了最先进的性能。

Nov, 2017

无监督关键点学习用于指导类别条件视频预测

本文提出一种以单个图像和动作类别为条件的深度视频预测模型，通过检测物体关键点并将关键点序列预测为未来运动，然后通过平移输入图像来生成未来帧。该方法通过无监督方式训练来检测任意对象的关键点，并使用原始视频的检测关键点作为伪标签学习物体运动，实验结果表明，我们的方法可以应用于各种数据集，而不需要对视频中的关键点进行标注，检测到的关键点类似于人工标注的标签，并且与以前的方法相比，预测结果更加真实。

Oct, 2019

在线动作和交互定位和预测

本文提出了一种面向人的在线方法，用于视频中行动和互动的定位和预测。通过使用姿态估计和外观模型结合条件随机场和结构 SVM 方法，该方法可在数帧画面内准确地定位和预测动作和互动。

Dec, 2016

目标中心动作识别的同时检测和交互推理

基于对象为中心的行为识别中的对象检测与交互推理的一阶段端到端行为识别框架，在提取视频特征的基础网络之后，通过三个模块同时进行对象检测和交互推理，既避免了对现成的对象检测器的严重依赖，也减轻了多阶段训练的负担，实验结果在常规、组合性和少量样本的行为识别任务上表现出色。

Apr, 2024

基于 3D 人体关键点的行人过街动作识别和轨迹预测

提出了一个基于多任务学习的框架来识别行人穿越行为并预测其未来轨迹，利用从原始传感器数据提取出来的人体关键点来捕捉丰富的人体姿态和活动信息，同时引入辅助任务和对比学习以提高所学习人体关键点表达式的性能表现。在大规模内部数据集和公共基准数据集上进行验证，证明了该方法在多种评估指标上实现了最先进的性能。

Jun, 2023

检测和识别人 - 物交互

这篇研究提出了一个新的机器学习模型，利用人类的行为、动作、动作具体区域等特征来预测目标对象的位置，实现在图像中精确识别人体与目标物之间的互动关系，为实现目标识别和视觉感知提供了新的思路。

Apr, 2017

结构化关键点池化的基于关键点的统一动作识别框架

本文提出了一种利用点云深度学习范式的方法，并引入了一种名为结构化关键点池化的深度神经网络架构，该方法针对骨架检测和跟踪误差、目标动作的少样性以及针对个人和帧的动作识别提出了统一的解决方案，同时还提出了一种 Pooling-Switching Trick，能够在弱监督下处理不同视频中的多个点云，实现对新数据的有效扩充，相比之前的研究能够更好地进行骨架和时空动作的识别和本地化。

Mar, 2023

跨视角基于学习的关系对象匹配

本论文提出了一种基于 RGB 图像的目标检测匹配的学习方法，结合了局部关键点与新颖的物体级特征，通过关联图神经网络训练，在许多视图上具有较好的性能并优于现有的纯关键点匹配方法。

May, 2023

以物体为中心的视频表示对长期行动预测

本文旨在建立面向视频中长期动作预测的物体中心表示。我们提出利用视觉 - 语言预训练模型构建物体中心视频表示，通过 “物体提示” 从通用预训练模型中提取任务特定的物体中心表示。我们使用基于 Transformer 的神经架构来识别和预测人 - 物交互，并在 Ego4D、50Salads 和 EGTEA Gaze + 基准测试上进行了广泛评估，定量和定性结果证实了我们提出方法的有效性。

Oct, 2023

通过视频预测进行物理交互的无监督学习

开发了一个动作条件视频预测模型，能够显式地模拟像素运动，从而学习关于物理对象运动的知识。同时，模型对对象外貌部分不变，可对以前未见过的对象进行推广。我们介绍了一个包含推动动作的 59,000 个机器人交互数据集，包括一个具有新颖对象的测试集。实验结果表明，与现有方法相比，我们的方法在定量和定性方面都能更准确地预测视频。

May, 2016