基于演员的流视频动作定位表示

ECCVApr, 2021

Actor-centered Representations for Action Localization in Streaming Videos

Sathyanarayanan N. Aakur, Sudeep Sarkar

TL;DR在不需要训练标签和轮廓的情况下，通过连续的分层预测学习构建基于注意力的上下文特征，以学习在流媒体视频中本地化动作的鲁棒表示方法。

Abstract

event perception tasks such as recognizing and localizing actions in streaming videos are essential for scaling to real-world application

event perception streaming videos actor-centered representations hierarchical predictive learning localizing actions

发现论文，激发创造

以物体为中心的视频表示对长期行动预测

本文旨在建立面向视频中长期动作预测的物体中心表示。我们提出利用视觉 - 语言预训练模型构建物体中心视频表示，通过 “物体提示” 从通用预训练模型中提取任务特定的物体中心表示。我们使用基于 Transformer 的神经架构来识别和预测人 - 物交互，并在 Ego4D、50Salads 和 EGTEA Gaze + 基准测试上进行了广泛评估，定量和定性结果证实了我们提出方法的有效性。

Oct, 2023

流媒体视频中的自监督式多角色社交活动理解

在这项研究中，我们提出了一种基于多演员预测学习的自监督方法，用于流媒体视频中的社交活动识别。通过使用视觉语义图结构，我们对社交互动进行建模，从而实现了关系推理，使其在具有最少标记数据的情况下具有鲁棒性表现。该方法在标准群体活动识别基准上取得了竞争性的性能，并通过三个公开可用的动作定位基准的评估证明了其可泛化到任意动作定位的能力。

Jun, 2024

演员监督的时空动作定位

本文介绍一种视频动作时空本地化的方法，着重于弱监督学习，只需要视频类标签即可。利用演员在动作中的变换特性，引入基于演员提议的算法及注意力机制，对三个行为数据集进行测试，实验结果表明，该方法在弱监督下可以实现与一些强监督学习相当的性能。

Apr, 2018

层次结构潜在注意力建模的弱监督动作定位

本文提出了一种基于注意力机制的分层结构潜在模型，用于学习特征语义的时间变化，通过两个组件进行实现：第一个是无监督的变点检测模块，通过在时间层次中学习视频特征的变化率来检测变点；第二个是基于注意力的分类模型，将前景的变点作为边界来选择。通过在两个基准数据集 THUMOS-14 和 ActivityNet-v1.3 上进行广泛实验，结果表明我们的方法优于当前最先进的方法，并且甚至与全监督方法具有可比较的性能。

Aug, 2023

基于生成式注意模型的弱监督动作定位

本文提出了一种使用条件变分自编码器模型来处理弱监督下的动作定位问题的方法，通过建立一个概率模型来模拟每一帧在给定关注度的情况下应当属于动作或非动作中的哪一类，从而有效地解决了动作与上下文之间相互混淆的问题。

Mar, 2020

基于背景建模的弱监督动作定位

该研究提出了一种潜在方法，利用注意力模型进行弱监督学习，其可以检测出影片中的动作，而无需特定类别的标签，并利用弱监督学习进行比较准确的学习和定位，成功地应用于 Instagram 中的不加筛选的视频之间。

Aug, 2019

无监督学习视角不变动作表示

提出一种无监督学习框架，利用未标记的数据来学习视频表示，通过学习推断不同视图的三维运动，捕捉视角不变的动作特征，以及增强视角不变特征的学习方法，并在多个数据集上证明该方法对动作识别的有效性。

Sep, 2018

使用弱监督为未修剪视频中的行动识别学习可转移的自我关注表示

提出一种新的基于弱监督框架，通过利用注意力机制定位动作帧同时识别未修剪视频中的动作，利用修剪视频中的信息传递知识来提高分类性能。在 THUMOS14 和 ActivityNet1.3 上经过广泛的实验，实验证明了该方法的有效性。

Feb, 2019

电影理解的分层自监督表征学习

本文介绍了一种面向电影理解的自监督视频学习方法，采用分层的预训练策略，在低层进行对比学习，高层则采用事件遮罩预测任务来预训练视频上下文模型，并在 VidSitu 基准测试中表现出更好的性能。同时，在 LVU 任务中，我们还展示了上下文化事件特征的有效性。

Apr, 2022

基于演员条件的视频行动检测的注意力地图

本研究提出使用注意力模块中的演员条件化关注映射（ACAM）代替兴趣区域池化，以实现针对特定演员的动作定位，并利用预训练的物体检测器进行物体检测，从而在 AV2.1 和 JHMDB 数据集上获得明显改进。

Dec, 2018