视频动作分类的互模态学习
本文致力于通过多模态蒸馏的方式,提高仅以 RGB 帧为输入的多模态方法在行动识别方面的性能。实验表明,该方法在标准 / 组合行动识别中均明显优于基线 RGB 模型以及联合训练多种模态的方法。
Oct, 2022
本研究提出了一种新的多模态视频动作识别方法,利用 RGB 数据以外的深度数据进行训练,在测试时利用 RGB 数据进行分类,通过精简网络来进行深度特征的提取,经过实验得到了目前最佳的分类结果。
Jun, 2018
本文研究了如何在仅使用 RGB 帧作为输入的情况下,保持多模态方法的性能表现,进而采用多模型知识蒸馏框架来处理这个问题,并在输入视角数量减少的情况下展示了更高的性能。
Jul, 2023
本文提出了一种基于多模态框架的文本指导视频时间地基方法,采用 RGB 图像、光流和深度图来提取视频的补充信息并通过 transformers 设计动态融合方案进行交互学习,在 Charades-STA 和 ActivityNet Captions 数据集上实验表明,该方法表现优越。
Jul, 2021
本文提出一种新的深度自编码器共享特定特征分解网络,将多模态信号分解成一系列组件,进而结合特征结构提出了一种结构化稀疏学习机以获得更好的分类性能,实验证明该方法在动作识别方面最先进。
Mar, 2016
本文提出一种 Modality Compensation Network(MCN)用于 RGB-D 摄像机采集的视频中的人类动作识别。该网络通过深度 CNN 和 LSTM 网络构建,使用骨骼作为辅助模态来提取源模态的更具有区分性的特征,并通过调整适应性表示学习,以弥补测试时甚至是训练时骨架的信息损失。实验结果表明,在四个广泛使用的动作识别基准测试上,MCN 优于现有的最佳方法。
Jan, 2020
通过学习多种模态(如音频和视频)可以利用互补信息,提高模型性能,本文提出了一种多损失目标和改进的平衡过程,通过动态调整不同模态的学习速度来实现更好的结果。
May, 2024
本文提出了一种多模态视频分割方法,通过语言引导的特征融合模块和多模态对齐损失函数,将视觉外观、运动信息和语言特征融合,实现了精准的文本视频分割。在 A2D Sentences 和 J-HMDB Sentences 数据集上的实验表明,该方法与现有方法相比具有更好的性能和泛化能力。
Apr, 2022
本文提出一种基于多模态、模态无关的融合变压器方法,通过交换多个模态之间的信息并将其整合成一个联合的多模态表示,从而获得聚合多模态时态信息的嵌入,可用于零 - shot 检索和分类。我们在 HowTo100M 数据集上训练模型,并在四个具有挑战性的基准数据集上评估结果,取得了零 - shot 视频检索和零 - shot 视频行动定位的最新成果。
Dec, 2021
我们在这项工作中提出了一种用于多模态动作识别的集成建模方法,通过使用适应 MECCANO 数据集的长尾分布的变种焦点损失模型,独立训练各个模态的模型,并基于焦点损失的基本原理,提出了一种指数衰减的焦点损失模型,它能够根据数据集中的所有示例逐渐适应,并鼓励模型在关注稀疏的艰难样本的同时,利用简单样本提供的信息,最后采用后期融合策略将 RGB 和深度模态的概率分布进行组合,以进行最终的动作预测。在 MECCANO 数据集上进行的实验评估证明了我们方法的有效性。
Aug, 2023