DVANet：多视角行为识别中视角和动作特征的解耦合

Dec, 2023

DVANet：多视角行为识别中视角和动作特征的解耦合

DVANet: Disentangling View and Action Features for Multi-View Action Recognition

Nyle Siddiqui, Praveen Tirupattur, Mubarak Shah

TL;DR提出一种新颖的多视图动作识别方法，通过可学习的变换器解码查询和两个监督对比损失将学习到的动作特征与视图信息分离，从而显著提高了多视图动作识别的性能。

Abstract

In this work, we present a novel approach to multi-view action recognition where we guide learned action representations to be separated from view-relevant information in a video. When trying to classify action instances captured from multiple viewpoints, there is a higher degree of di

multi-view action recognition learnable transformer decoder queries supervised contrastive losses disentangled feature learning uni-modal models

发现论文，激发创造

基于有向 Gromov-Wasserstein 差异的多视角动作识别

我们提出了一种多视角注意力一致性方法，使用有向 Gromov-Wasserstein 差异计算来自行动视频的两个不同视角的注意力之间的相似度。此外，在单视角数据集上训练时，我们的方法应用了神经辐射场的思想来隐式渲染来自新视角的特征。与最近的行动识别方法相比，我们提出的方法在三个大规模数据集（Jester，Something-Something V2 和 Kinetics-400）上取得了最先进的结果。

May, 2024

RGB+D 视频中的行为识别深度多模态特征分析

本文提出一种新的深度自编码器共享特定特征分解网络，将多模态信号分解成一系列组件，进而结合特征结构提出了一种结构化稀疏学习机以获得更好的分类性能，实验证明该方法在动作识别方面最先进。

Mar, 2016

DEVIAS: 为整体视频理解学习动作和场景的脱缰视频表示

通过 Disentangled VIdeo representations of Action and Scene (DEVIAS) 提出了一种细分行动和场景表示的方法，利用 slot attention 和辅助任务来有效提高视频理解性能。

Nov, 2023

面部动作的线性解耦表示学习

本文提出了一种线性模型来处理具有挑战性的现实多通道信号，该模型在 2D 面部视频中进行人脸动作识别，其基于稀疏表示分类的直观线性模型，利用帧之间的低秩性质来减去底层的中性脸部，从而识别面部动作单位，取得不错的性能。

Jan, 2017

基于超图的多视角动作识别使用事件摄像机

多视角基于事件的行为识别框架 HyperMV 在多视角事件数据利用方面填补了现有研究的差距，并引入了最大的多视角基于事件的行为数据集 THU-MV-EACT-50，通过实验结果证明 HyperMV 在跨主体和跨视角情况下明显优于基线模型，同时在基于帧的多视角行为识别方面超越了现有的技术水平。

Mar, 2024

无监督学习视角不变动作表示

提出一种无监督学习框架，利用未标记的数据来学习视频表示，通过学习推断不同视图的三维运动，捕捉视角不变的动作特征，以及增强视角不变特征的学习方法，并在多个数据集上证明该方法对动作识别的有效性。

Sep, 2018

多流网络的模态蒸馏用于动作识别

本研究提出了一种新的多模态视频动作识别方法，利用 RGB 数据以外的深度数据进行训练，在测试时利用 RGB 数据进行分类，通过精简网络来进行深度特征的提取，经过实验得到了目前最佳的分类结果。

Jun, 2018

视频中动作、前景和背景特征的分离

本文介绍了一种非监督框架来提取视频表征的语义丰富特征，并提出了一个深度卷积神经网络来分离运动、前景和背景信息。实验结果表明，该网络可以在视频中成功分割前景和背景，并基于分离的运动特征更新前景外观。此处提供的预训练方法可以优于随机初始化和自动编码器预训练，促进了区分性分类任务。

Jul, 2017

多视角聚合网络用于二分图像分割

Dichotomous Image Segmentation (DIS) explores the challenge of balancing semantic dispersion and high-precision details in object segmentation. The paper proposes a parsimonious multi-view aggregation network (MVANet) that surpasses state-of-the-art methods in accuracy and speed.

Apr, 2024

多相机强化学习的多视角解缠

使用多个摄像机同时进行训练，以及利用多个摄像机的不同视角信息来提高增强学习的性能，我们提出了一种名为多视图解缠（MVD）的方法，通过学习来自多个摄像机的策略以实现对训练集中任意单个摄像机的无需示范泛化能力。

Apr, 2024