通过时间动作解析实现内部和外部交互理解

CVPRMay, 2020

通过时间动作解析实现内部和外部交互理解

Intra- and Inter-Action Understanding via Temporal Action Parsing

Dian Shao, Yue Zhao, Bo Dai, Dahua Lin

TL;DR使用 TAPOS 数据集，针对深度学习在运动识别中的限制，提出了一种改进的时序划分方法，能挖掘出运动过程中的子动作信息，从而有效提高识别性能。

Abstract

Current methods for action recognition primarily rely on deep convolutional networks to derive feature embeddings of visual and motion features. While these methods have demonstrated remarkable performance on standard benchmarks, we are still in need of a better understanding as to how

action recognition deep convolutional networks temporal structures sub-actions tapos dataset

发现论文，激发创造

一种通过姿势引导的粗到细框架进行部件级动作解析的方法

该研究提出了一种用于行动识别的粗到细框架，旨在预测视频级别的行动，并识别视频中每个人体部分的帧级细粒度操作或交互，通过 Kinetics-TPS 的全面实验，该框架取得了最先进的性能，在 31.10％的 ROC 得分上优于现有方法。

Mar, 2022

时序解析变换器用于动作质量评估

通过时间解析变压器将运动分解为时间部分级表示，采用对比回归与分级损失函数用于动作质量评估，提高了当前方法在多个 AQA 基准测试中的性能。

Jul, 2022

用于行为识别的异步时间场

提出了一种基于完全连接的时间条件随机场模型，用于推理各个活动方面，包括对象、动作和意图，其中潜在函数由深层网络预测；而异步变分推理方法使得高效的端到端训练成为可能，该方法在 Charades 基准测试中达到了 22.4％的分类 mAP，超过了现有技术 (17.2％mAP)。

Dec, 2016

一种基于语义和运动感知的时空转换网络实现动作检测

本文介绍了一种新颖的时空变换网络，其中引入了几个原创组件以在未修剪视频中检测动作。该网络通过多特征选择性语义注意力模型计算空间和运动特征之间的关联，使用运动感知网络编码视频帧中的动作位置，并采用序列基础的时间注意力模型捕捉动作帧中的异质时间依赖关系，该方法在四个时空动作数据集上优于最先进的解决方案：AVA 2.2、AVA 2.1、UCF101-24 和 EPIC-Kitchens。

May, 2024

学习潜在的时空组合模型用于人类动作识别

通过构建表达力强的组合行为模型，模拟视频中动作实例的时空组合，采用弱监督学习算法，识别行为的潜在结构，最终实验结果表明该方法在动作识别方面的表现优于竞争方法。

Feb, 2015

时间动作分割的活动语法

通过引入有效的活动语法，本文提出了一种新颖的语法归纳算法，可以从动作序列数据中提取强大的无上下文语法，并开发了一种高效的广义解析器，根据归纳的语法和递归规则将帧级概率分布转化为可靠的动作序列。实验结果表明，我们的方法在两个标准基准评估 Breakfast 和 50 Salads 上在性能和可解释性方面显著提高了时序动作分割。

Dec, 2023

动作搜索：在视频中识别动作及其在时间动作定位中的应用

本文提出了基于观察视频小部分来查找视频中特定动作的新问题：视频中的动作识别，并使用递归神经网络模仿人类查找动作的方式，同时建立了 Human Searches 数据集，从中得到人类注释者的行为数据，用于解决动作识别中缺乏数据的问题，实验表明，该模型不仅能够在观察视频的平均 17.3％的情况下高效地探索视频，还能以 30.8％的平均精度准确地找到人类活动。

Jun, 2017

时序段网络：深度动作识别的良好实践

本文提出了一种新的视频动作识别框架 - TSN，并探究了在时间段网络的帮助下学习 ConvNet 模型的一系列良好实践策略。实验结果表明，本方法在 HMDB51（69.4%）和 UCF101（94.2%）数据集上取得了最先进的性能。我们还可视化了学习到的 ConvNet 模型，定性展示了时间段网络和所提出良好实践的有效性。

Aug, 2016

只有时间能告诉我们：发现用于时间建模的时间数据

该研究通过构建一个基于 ' 时间数据集 ' 的分类器来研究理解视觉世界如何随时间变化以及在视频理解中，Temporal 与 Static Action Classes 的区别；并表明更多的时间数据可以帮助提高模型性能。

Jul, 2019

稀疏时域池化网络弱监督动作定位

该篇论文提出了一种利用卷积神经网络进行弱监督时间动作定位的算法，其通过学习视频级别的类标签来预测人类动作的时间区间，利用注意力模块鉴别与目标动作有关的重要片段，并通过自适应时间池化融合这些关键片段，同时在损失函数中考虑视频级别的动作分类误差和这些关键片段的稀疏性，利用类别激活和类别无关的注意力在推断时提取和评分时间建议，以估计与目标动作对应的时间区间，在 THUMOS14 数据集上取得了最先进的结果，并具有卓越的 ActivityNet1.3 性能。

Dec, 2017