基于关注运动增强的跨模态交互表征学习压缩视频动作识别

IJCAIMay, 2022

基于关注运动增强的跨模态交互表征学习压缩视频动作识别

Representation Learning for Compressed Video Action Recognition via Attentive Cross-modal Interaction with Motion Enhancement

PDF

Bing Li, Jiaxin Chen, Dongming Zhang, Xiuguo Bao, Di Huang

TL;DR本研究提出了一种新的框架 MEACI-Net，采用 RGB 模态和运动模态，并针对压缩视频动作识别常见的问题，加入了 Motion Enhancement、Selective Motion Complement 和 Cross-Modality Augment 模块，实现了两种模态间的交互作用和特征增强，有效提高了识别准确率和计算效率。

Abstract

compressed video action recognition has recently drawn growing attention, since it remarkably reduces the storage and computational cost via replacing raw videos by sparsely sampled RGB frames and compressed moti

compressed video action recognition meaci-net motion enhancement cross-modal interaction

发现论文，激发创造

学习全面的运动表示以进行动作识别

本研究提出了基于 2D CNN 的动作识别方法 (CMR)，通过引入 CME 和 SME 两个 motion enhancement 模块，分别从通道和空间维度上对动态信息进行加强，进一步提高了识别准确率。在 Something-Something V1、V2 和 Kinetics-400 数据集上取得了有竞争力的性能表现。

Mar, 2021

多路动作建模和互信息最大化的动作识别

本文通过提出一种加速度表示，引入新颖的流式图卷积神经网络以及特征级监督，提高了行动识别的精度并在三个基准数据集上实现了新的最佳性能。

Jun, 2023

DMC-Net: 为快速压缩视频动作识别生成具有区分性的动作线索

该研究提出一种轻型的生成网络，用于提高压缩视频中噪声较多的运动向量的信噪比和准确性，从而实现更具有辨别力的运动提示 (DMC) 表示，并在行动识别任务中进行了联合训练，从而接近于光流使用的高精度；该方法在三个行动识别数据集上进行了广泛的评估，并证实了其有效性。

Jan, 2019

模态补偿网络：用于动作识别的跨模态自适应

本文提出一种 Modality Compensation Network（MCN）用于 RGB-D 摄像机采集的视频中的人类动作识别。该网络通过深度 CNN 和 LSTM 网络构建，使用骨骼作为辅助模态来提取源模态的更具有区分性的特征，并通过调整适应性表示学习，以弥补测试时甚至是训练时骨架的信息损失。实验结果表明，在四个广泛使用的动作识别基准测试上，MCN 优于现有的最佳方法。

Jan, 2020

MaCLR: 面向视频的动态感知对比学习表征

MaCLR 是一种新方法，通过视觉和运动模态之间的交叉模态学习，在 RGB 视频剪辑和动作路径之间富化标准对比学习目标，从而更关注前景运动区域，达到了自监督下行任务的最先进性能。

Jun, 2021

工业场景中的主体视角 RGB + 深度行为识别

我们的研究集中在认识行为，特别是来自以自我为中心视角的行为，并结合深度模态从工业环境中识别行为。针对现实世界中多模态行为发生的困难，我们提出了一种训练策略，并通过后期融合来结合来自每种模态的预测，这在 MECCANO 数据集上明显优于先前的工作，并在 ICIAP 2023 的多模态行为识别挑战中获得第一名。

Sep, 2023

多模视觉动作识别的集成建模

我们在这项工作中提出了一种用于多模态动作识别的集成建模方法，通过使用适应 MECCANO 数据集的长尾分布的变种焦点损失模型，独立训练各个模态的模型，并基于焦点损失的基本原理，提出了一种指数衰减的焦点损失模型，它能够根据数据集中的所有示例逐渐适应，并鼓励模型在关注稀疏的艰难样本的同时，利用简单样本提供的信息，最后采用后期融合策略将 RGB 和深度模态的概率分布进行组合，以进行最终的动作预测。在 MECCANO 数据集上进行的实验评估证明了我们方法的有效性。

Aug, 2023

MM-ViT：用于压缩视频动作识别的多模态视频 Transformer

该论文提出了一种基于多模态视频变换器 (MM-ViT) 的纯 Transformer 方法，其能够从压缩视频领域的多个可用模态中获取信息并实现动作识别，采用多个可扩展模型变量来处理来自多个模态的大量空间和时间令牌，进一步探索其丰富的模态间互动和效果，并比较了三种不同的跨模态注意机制。该方法在三个公共的动作识别基准测试（UCF-101，Something-Something-v2，Kinetics-600）上表现出超越现有技术的性能，既高效又精确。

Aug, 2021

多模型行为识别中利用互补信息的模态混合器

提出了一种名为 Modality Mixer (M-Mixer) 网络的新型网络，有效地利用和整合不同模态的互补信息和动作的时间上下文，以实现动作识别，通过在 NTU RGB+D 60、NTU RGB+D 120 和 NW-UCLA 数据集上的测试结果，证明了该方法优于最先进的方法。

Nov, 2023

以动作为中心的对比学习视频表征

本文提出了一种基于 Motion-focused 对比学习的方法，利用光流采样和梯度图校准训练视频特征，加强了自监督视频表示学习中的数据增强和特征学习，实验结果表明方法有效，超过了传统监督预训练的表现。

Jan, 2022