多模视觉动作识别的集成建模

Aug, 2023

Ensemble Modeling for Multimodal Visual Action Recognition

Jyoti Kini, Sarah Fleischer, Ishan Dave, Mubarak Shah

TL;DR我们在这项工作中提出了一种用于多模态动作识别的集成建模方法，通过使用适应 MECCANO 数据集的长尾分布的变种焦点损失模型，独立训练各个模态的模型，并基于焦点损失的基本原理，提出了一种指数衰减的焦点损失模型，它能够根据数据集中的所有示例逐渐适应，并鼓励模型在关注稀疏的艰难样本的同时，利用简单样本提供的信息，最后采用后期融合策略将 RGB 和深度模态的概率分布进行组合，以进行最终的动作预测。在 MECCANO 数据集上进行的实验评估证明了我们方法的有效性。

Abstract

In this work, we propose an ensemble modeling approach for multimodal action recognition. We independently train individual modality models using a variant of focal loss tailored to handle the →

ensemble modeling multimodal action recognition focal loss long-tailed distribution late fusion strategy

发现论文，激发创造

工业场景中的主体视角 RGB + 深度行为识别

我们的研究集中在认识行为，特别是来自以自我为中心视角的行为，并结合深度模态从工业环境中识别行为。针对现实世界中多模态行为发生的困难，我们提出了一种训练策略，并通过后期融合来结合来自每种模态的预测，这在 MECCANO 数据集上明显优于先前的工作，并在 ICIAP 2023 的多模态行为识别挑战中获得第一名。

Sep, 2023

自我中心行为识别的多模态蒸馏

本文研究了如何在仅使用 RGB 帧作为输入的情况下，保持多模态方法的性能表现，进而采用多模型知识蒸馏框架来处理这个问题，并在输入视角数量减少的情况下展示了更高的性能。

Jul, 2023

视频动作分类的互模态学习

本研究探讨了将集成学习应用于单个模型的各种方法，通过适当的初始化和相互学习等策略增强单模态模型，达到了在 Something-Something-v2 基准测试中的最优结果。

Nov, 2020

面向缺失模态鲁棒性行为识别的良好实践

本文针对多模态动作识别及其中一些模态不可用情况提出一套良好的实践方法，包括数据增强、基于 Transformer 的融合方法以及一个名为 ActionMAE 的模块化网络。通过采用这些方法，建立一个不仅在多模态动作识别中有效，同时对于模态缺失情况也具有鲁棒性的模型，并在多个基准测试中实现了最新技术，并在模态缺失场景中保持有竞争力的表现。

Nov, 2022

深度视频中的多模态多部分学习与动作识别

提出了一种基于结构稀疏性的联合稀疏回归学习方法，利用来自稀疏部位集的多模态特征的组合将每个动作建模为结构稀疏性，以此来表示各个部位的动态和外观。

Jul, 2015

多模式教师教授的学生为优秀的动作识别者

本文致力于通过多模态蒸馏的方式，提高仅以 RGB 帧为输入的多模态方法在行动识别方面的性能。实验表明，该方法在标准 / 组合行动识别中均明显优于基线 RGB 模型以及联合训练多种模态的方法。

Oct, 2022

基于关注运动增强的跨模态交互表征学习压缩视频动作识别

本研究提出了一种新的框架 MEACI-Net，采用 RGB 模态和运动模态，并针对压缩视频动作识别常见的问题，加入了 Motion Enhancement、Selective Motion Complement 和 Cross-Modality Augment 模块，实现了两种模态间的交互作用和特征增强，有效提高了识别准确率和计算效率。

May, 2022

可扩展的弱监督学习的多模态生成模型

本文介绍了一种基于变分自编码器的多模态学习方法，能够有效地用少量参数处理多模态输入数据的推断问题，提出的方法在一些数据集上表现出与最先进技术相匹配的性能。

Feb, 2018

多流网络的模态蒸馏用于动作识别

本研究提出了一种新的多模态视频动作识别方法，利用 RGB 数据以外的深度数据进行训练，在测试时利用 RGB 数据进行分类，通过精简网络来进行深度特征的提取，经过实验得到了目前最佳的分类结果。

Jun, 2018

DMCL: 多模态动作识别的蒸馏式多选学习

本文提出了一种基于多模态数据的 Distillation Multiple Choice Learning 框架来解决测试时缺失模态的问题，通过不同模态网络之间的协作学习，实现了显著高于单独训练的准确率，实现了在视频动作识别领域的最新成果。

Dec, 2019