MSQNet: 多模态查询下的无关角色行为识别

Jul, 2023

MSQNet: 多模态查询下的无关角色行为识别

MSQNet: Actor-agnostic Action Recognition with Multi-modal Query

Anindya Mondal, Sauradip Nag, Joaquin M Prada, Xiatian Zhu, Anjan Dutta

TL;DR现有的行动识别方法通常是针对特定的演员，这是由于演员之间的内在拓扑和显而易见的差异造成的。我们提出了一种称为 ' 演员不可知的多模多标签行动识别 ' 的新方法，以统一解决包括人类和动物在内的各种演员类型的问题。我们进一步在一种基于 Transformer 的目标检测框架（如 DETR）中制定了一种新颖的多模态语义查询网络（MSQNet）模型，它利用视觉和文本模态更好地表示行动类别。通过对五个公开可用的基准测试进行广泛的实验证明，我们的 MSQNet 在人类和动物的单标签和多标签行动识别任务上始终优于特定演员的先前方案，提升幅度高达 50%。代码将在此 URL 发布。

Abstract

Existing action recognition methods are typically actor-specific due to the intrinsic topological and apparent differences among the actors. This requires →

action recognition actor-specific multi-modal msqnet transformer-based

发现论文，激发创造

文本视频分割的演员和行为模块化网络

本文提出了一种基于文本的视频分割方法，通过引入一个新的演员和动作的模块化网络，解决了语义不对称问题，同时提出了时间提案聚合机制，获得了单帧分割和全视频分割的最先进性能。

Nov, 2020

从 CNN 到 Transformers 的多模态人体动作识别：一项调查

多模态人体动作识别的综述研究，重点关注多模态数据融合设计方面的经典和新兴技术，分析了卷积神经网络和 Transformer 建模方法在该问题上的流行趋势和更高效的模型设计选择，并讨论了实践模型训练中的有前景的架构和融合设计选择，以及多模态数据集的规模和评估视角，提出了多模态人体动作识别的挑战与未来发展方向。

May, 2024

野外多模态查询对象检测

MQ-Det 是一种多模态查询目标检测方法，结合了文本和图像作为类别查询，该方法通过在现有的只有文本的检测器中插入可扩展的感知模块，将类别文本与类别视觉信息相结合，并提出了一种视觉条件掩码语言预测策略，可以显著提高开放式检测的性能。

May, 2023

多模态 Transformer 网络用于动作检测

本文提出了一种新的多模态转换器网络，用于检测未修剪视频中的动作，利用新的多模态注意机制计算不同空间和动态模态组合之间的相关性，并提出一种算法来纠正相机运动引起的动态变形，该算法在 THUMOS14 和 ActivityNet 两个公共基准测试上优于现有方法，在我们的新教育活动数据集上进行了比较实验，该数据集包括从小学捕捉的大量具有挑战性的课堂视频。

May, 2023

跨模态知识蒸馏用于动作识别

研究如何将针对 RGB 视频训练的行动识别网络适应于识别 3D 人体姿势序列这样的另一个模态，提出了一种基于互相学习的小型学生网络集成和交叉模态知识蒸馏的方法，使得几乎达到了使用完全监督训练的学生网络的精度。

Oct, 2019

利用姿态、动作和外观进行动作分类和检测的串联多流网络

本文提出了一种网络体系结构，计算和整合了人类动作识别中最重要的视觉线索：姿态，运动和原始图像，并引入了马尔科夫链模型进行融合，在 HMDB51，J-HMDB 和 NTU RGB+D 数据集上达到最先进的动作分类性能和在 UCF101 和 J-HMDB 数据集上达到最先进的时空动作定位结果。

Apr, 2017

实时 3D 人体姿态估计和动作识别的多任务深度学习

本研究提出了一种多任务学习框架，能够同时从单眼彩色图像中估算二维或三维的人体姿态并分类人体动作。通过参数共享与关键预测部分解耦等技术，该框架能有效地处理静态图像和视频剪辑，实现了 100 帧以上的速度，并在四个数据集上显著提高了预测能力。

Dec, 2019

使用多任务深度学习进行 2D/3D 姿势估计和动作识别

本文提出了一种多任务框架，用于联合解决静态图像的二维和三维姿势估计及视频序列的人类动作识别问题。实现了端到端优化，与传统分开学习相比准确率显著提高，报告了使用该方法对 MPII、Human3.6M、Penn Action 和 NTU 四个数据集的测试结果，证明了其在目标任务上的有效性。

Feb, 2018

一种基于深度学习的人体动作单张图像解析模型

本文主要研究如何通过使用深度置信网络方法来融合人体布局和周围信息从静态图像中理解人体行为，并使用手动标记的数据来改善网络的训练和微调阶段的效率。结果表明该方法具有较好的鲁棒性和优异的性能。

Feb, 2015

通用零样本基于骨骼的动作识别的多义融合模型

提出了一种用于提高广义零样本基于骨骼的动作识别（GZSSAR）性能的多语义融合（MSF）模型，其中采集了两种类级文本描述（动作描述和运动描述）作为辅助语义信息，以增强通用骨骼特征的学习能力。通过预训练的语言编码器和骨骼编码器提取富有语义特征的动作类别和骨骼特征，并利用基于变分自动编码器（VAE）的生成模块学习骨骼和语义特征之间的跨模态对齐，最后构建分类模块识别输入样本的动作类别，并在 GZSSAR 中采用看见未见分类门来预测样本是否来自已知动作类别。与先前模型相比，提出的 MSF 模型在 GZSSAR 上表现出卓越的性能。

Sep, 2023