通过视频注意力和时间上下文进行自我中心动作识别

CVPRJul, 2020

通过视频注意力和时间上下文进行自我中心动作识别

Egocentric Action Recognition by Video Attention and Temporal Context

Juan-Manuel Perez-Rua, Antoine Toisoul, Brais Martinez, Victor Escorcia, Li Zhang...

TL;DR这篇文章介绍了三个方法：动作识别、动词和名词分类以及空间 - 时间视频注意力模型来解决小动态物体、复杂手部物体交互和遮挡等挑战。

Abstract

We present the submission of Samsung AI Centre Cambridge to the CVPR2020 EPIC-Kitchens action recognition Challenge. In this challenge, action recognition is posed as the problem of simultaneously predicting a single `verb' and `noun' class label given an input trimmed video clip. That

action recognition verb and noun classification spatial-temporal video attention model contextual learning epic-kitchens action recognition challenge

发现论文，激发创造

从时间维度出发：多模态自我中心动作识别

利用时间上下文提高了自我中心视频识别能力的基于转换器的多模态模型。

Nov, 2021

利用多任务学习提升自我中心行为识别

本文提出了一种使用多任务学习的方法，通过并行训练网络来提高动作识别的准确率，并同时实现手部和凝视估计的辅助任务。在多个数据集上的实验证明，该方法在动作识别上的性能明显优于单任务学习模型，并可以准确预测手部和凝视位置。

Sep, 2019

开启自我中心行动的词汇

本文提出了一种新颖的开放词汇动作识别任务，在训练期间观察到的动词和物体的基础上，通过一个与物体无关的动词编码器和一个基于提示的物体编码器来将动词和物体预测分离，借助 CLIP 表示来预测一组相互作用的对象的开放词汇。在 EPIC-KITCHENS-100 和 Assembly101 数据集上创建了开放词汇基准，而闭合动作方法无法泛化，我们提出的方法非常有效。此外，我们的物体编码器在识别新的相互作用物体方面显著优于现有的开放词汇视觉识别方法。

Aug, 2023

使用视觉注意力进行动作识别

本文提出一种基于 soft attention 的模型，用于对视频中的动作进行识别，该模型使用多层循环神经网络 (RNNs) 和长短期记忆 (LSTM) 单元，学习有选择地专注于视频帧的某些部分，通过几个瞥见来对视频进行分类。该模型主要学习帧中哪些部分与目标任务相关，并赋予它们更高的重要性。我们在 UCF-11 (YouTube Action)、HMDB-51 和 Hollywood2 数据集上评估了该模型，并分析了模型在不同场景和不同动作下注意力的聚焦。

Nov, 2015

利用特权信息的共生注意力进行自我中心动作识别

本文提出一种新的 Symbiotic Attention 框架 (SAP) 来应用于使用特权信息的视角视频的识别，利用定位感知的对象检测特征来帮助理解演员与对象的互动，并结合新颖的生物共生注意力 (SA) 来加强动作分类的互动，实现了在两个大规模视角视频数据集上的最新技术成果。

Feb, 2020

空间时态交互网络的组合动作识别

本文提出一种新颖的机器学习模型，通过对主体 - 对象交互的动态学习来探究行为的组成性。该模型能够精确推理组成对象的几何关系和动作代理之间的关系，具有较好的应用前景。在使用 Something-Something 数据集进行训练时，我们提出了一种新的组合性行为识别任务，成功验证了该模型的有效性。

Dec, 2019

重新审视时空布局以进行组合行为识别

本文研究了基于物体的方法解决动作识别问题，提出了一种基于多头注意力的配置分析方法，证明将布局信息与外观信息相结合可以提高方法的识别准确率。

Nov, 2021

移动视频动作识别

本文研究了在移动设备上的视频动作识别任务，提出了一个基于 MobileNetV2 和 Temporal Trilinear Pooling (TTP) 模块的方法，使用多种模态处理压缩视频，并进行了效率测试，结果表明我们的模型在移动设备上可以实现 40FPS 的识别速度，且在模型大小和时间消耗方面表现优异。

Aug, 2019

看和听自我的行动：我们能学到多少？

本文提出了一种基于音频和视觉信息的厨房环境中的多模态方法，利用稀疏时间采样策略，通过音频、空间和时间流的后期融合，在 EPIC-Kitchens 数据集上实验表明多模态方法比单模态方法更好地提高了动作识别性能，特别是在动词分类上实现了 5.18% 的改进。

Oct, 2019

建模空间 - 时间交互以进行组合动作识别

该研究提出组合动作识别的方法，并使用时空交互编码器捕捉人体 - 物体之间的交互作用并将其与视频信息相结合。该方法在多个数据集上获得了先进的性能，表明显式地对人体 - 物体之间的交互行为建模是有效的。

May, 2023