DEVIAS: 为整体视频理解学习动作和场景的脱缰视频表示

Nov, 2023

DEVIAS: 为整体视频理解学习动作和场景的脱缰视频表示

DEVIAS: Learning Disentangled Video Representations of Action and Scene for Holistic Video Understanding

Kyungho Bae, Geo Ahn, Youngrae Kim, Jinwoo Choi

TL;DR通过 Disentangled VIdeo representations of Action and Scene (DEVIAS) 提出了一种细分行动和场景表示的方法，利用 slot attention 和辅助任务来有效提高视频理解性能。

Abstract

When watching a video, humans can naturally extract human actions from the surrounding scene context, even when action-scene combinations are unusual. However, unlike humans, video action recognition models often learn

video action recognition scene-biased action representations disentangled video representations of action and scene slot attention video understanding scenarios

发现论文，激发创造

DVANet：多视角行为识别中视角和动作特征的解耦合

提出一种新颖的多视图动作识别方法，通过可学习的变换器解码查询和两个监督对比损失将学习到的动作特征与视图信息分离，从而显著提高了多视图动作识别的性能。

Dec, 2023

通过解耦场景和运动来增强无监督视频表示学习

提出了一种解耦场景和物体运动信息的 DSM 方法，通过构造正负剪辑来加强模型对物体运动信息的关注，减少场景信息的影响，并在两项任务上进行实验，发现在 UCF101 和 HMDB51 数据集上动作识别任务的准确率分别提高了 8.1％和 8.8％。

Sep, 2020

为什么我不能在商场跳舞？学习减缓动作识别中的场景偏见

我们提出了一种减轻场景偏差从而实现视频表示学习的方法，通过在行动分类的交叉熵损失中增加场景类型的对抗性损失和关于人类角色面罩混淆的损失，来鼓励学习能够在没有证据时无法预测场景类型和正确的行动的表示。我们的结果表明，相对于没有进行去偏置处理的基准模型，我们的预训练模型在行动分类、时间定位和时空行动检测等三个不同任务上均得到了一致的提升。

Dec, 2019

无监督学习视角不变动作表示

提出一种无监督学习框架，利用未标记的数据来学习视频表示，通过学习推断不同视图的三维运动，捕捉视角不变的动作特征，以及增强视角不变特征的学习方法，并在多个数据集上证明该方法对动作识别的有效性。

Sep, 2018

面部动作的线性解耦表示学习

本文提出了一种线性模型来处理具有挑战性的现实多通道信号，该模型在 2D 面部视频中进行人脸动作识别，其基于稀疏表示分类的直观线性模型，利用帧之间的低秩性质来减去底层的中性脸部，从而识别面部动作单位，取得不错的性能。

Jan, 2017

基于知识库的解耦合动作识别

本研究提出了一种使用知识图谱来改善组成动作识别模型对于新动词或新名词的泛化能力的方法，通过提取动词和名词的不可分离特征表示并利用外部知识图谱中的关系来预测分类权重构成动作，并取得了 Charades 数据集上的最佳表现。

Jul, 2022

Vamos: 视频理解的多功能行为模型

在研究中，我们提出了一种基于大型语言模型的学习框架，使用视频中提取的动作标签和自由形式的描述作为输入，证明了基于文本的视频表示在语言模型时代具有竞争力的表现，并在多个基准测试中取得了最先进的性能。

Nov, 2023

基于演员的流视频动作定位表示

在不需要训练标签和轮廓的情况下，通过连续的分层预测学习构建基于注意力的上下文特征，以学习在流媒体视频中本地化动作的鲁棒表示方法。

Apr, 2021

大规模整体视频理解

本文介绍了一个基于语义分类的大规模 Holistic 视频理解数据集 HVU，它实现了对多标签、多任务视频理解的全面考虑，以及介绍了一种新的综合外观和时间神经网络体系结构 HATNet，本文拓展了视频识别范畴，验证了 Holistic 表示学习在许多实际应用程序中的重要作用。

Apr, 2019

线性解缠表示和无监督动作估计

通过改变损失函数的设置，可以在 VAE 模型中诱导线性分离表示，这是一种理想的表示形式，符合经典分离指标，并提出了一种方法诱导不可约表示。

Aug, 2020