跨模态知识蒸馏用于动作识别

Oct, 2019

Cross-modal knowledge distillation for action recognition

Fida Mohammad Thoker, Juergen Gall

TL;DR研究如何将针对 RGB 视频训练的行动识别网络适应于识别 3D 人体姿势序列这样的另一个模态，提出了一种基于互相学习的小型学生网络集成和交叉模态知识蒸馏的方法，使得几乎达到了使用完全监督训练的学生网络的精度。

Abstract

In this work, we address the problem how a network for action recognition that has been trained on a modality like RGB videos can be adapted to recognize actions for another modality like sequences of 3D human poses. To this end, we extract the knowledge of the trained teacher network

action recognition modalities knowledge distillation cross-entropy loss mutual learning

发现论文，激发创造

自监督跨模态相互蒸馏的三维动作表示学习

本文提出了一种新的跨模态交互知识蒸馏框架 Cross-modal Mutual Distillation (CMD) 来学习自监督的三维动作表示，该框架中引入邻域相似性分布来建模每种模态中学到的知识，并使用非对称配置来稳定蒸馏过程和在模态之间传输高置信度的信息，该方法在多个数据集上均举行了大量实验，超出了现有的自监督方法并创造了一系列新记录。

Aug, 2022

多流网络的模态蒸馏用于动作识别

本研究提出了一种新的多模态视频动作识别方法，利用 RGB 数据以外的深度数据进行训练，在测试时利用 RGB 数据进行分类，通过精简网络来进行深度特征的提取，经过实验得到了目前最佳的分类结果。

Jun, 2018

自我中心行为识别的多模态蒸馏

本文研究了如何在仅使用 RGB 帧作为输入的情况下，保持多模态方法的性能表现，进而采用多模型知识蒸馏框架来处理这个问题，并在输入视角数量减少的情况下展示了更高的性能。

Jul, 2023

知识作为先验：跨模态知识泛化在无优先知识数据集上

本文提出了一种名为 “跨模态知识普适” 的新方法，将一个以高级模态（教师）训练的模型中的知识传递给以较弱模态（学生）训练的另一个模型，同时不需要在教师数据集中配对数据。通过在参数上建模知识，来将源数据集中积累的跨模态知识泛化到目标数据集，最终在标准基准数据集上展示了 3D 手势估计的竞争性表现。

Apr, 2020

视觉语言与骨骼的融合：逐步蒸馏和跨模态知识用于 3D 动作表示学习

基于骨骼的动作识别的训练方法之一是基于监督学习的独热分类，这需要大量的预定义动作类别注释；而基于自监督学习的方法涉及预处理任务中的骨架变换，可能会损害骨架结构。为了解决这些挑战，我们引入了一种新颖的基于骨骼的训练框架（C$^2$VL），基于跨模态对比学习，使用渐进蒸馏从视觉 - 语言知识提示中学习无关任务的人类骨架动作表征。

May, 2024

基于生成模型的特征知识蒸馏用于行为识别

本研究提出了一种创新的知识蒸馏框架，利用生成模型训练轻量级学生模型，通过特征表示和基于生成模型的特征蒸馏阶段，转移基于注意力的特征语义，在视频动作识别任务中显示出显著的性能改进。

Dec, 2023

基于文本的知识助力视觉：视频行为预测的简单跨模态蒸馏

本研究将预训练语言模型中的知识转移应用于视觉模型中，以提高动作预测的效果，实验表明简单的蒸馏技术可以在两个动作预测数据集上实现一定的相对增益。

Oct, 2022

模态补偿网络：用于动作识别的跨模态自适应

本文提出一种 Modality Compensation Network（MCN）用于 RGB-D 摄像机采集的视频中的人类动作识别。该网络通过深度 CNN 和 LSTM 网络构建，使用骨骼作为辅助模态来提取源模态的更具有区分性的特征，并通过调整适应性表示学习，以弥补测试时甚至是训练时骨架的信息损失。实验结果表明，在四个广泛使用的动作识别基准测试上，MCN 优于现有的最佳方法。

Jan, 2020

多模式教师教授的学生为优秀的动作识别者

本文致力于通过多模态蒸馏的方式，提高仅以 RGB 帧为输入的多模态方法在行动识别方面的性能。实验表明，该方法在标准 / 组合行动识别中均明显优于基线 RGB 模型以及联合训练多种模态的方法。

Oct, 2022

基于 RGB 的时间动作检测的交叉模态分解蒸馏

本文介绍了一种基于交叉模态蒸馏的分解式跨空间学习框架，通过学习 RGB 和运动表征并结合两者来完成动作定位，极大地提高了基于 RGB 的动作检测器的性能，该框架不受骨干网络和检测头的影响。

Mar, 2023