M$^3$Net: 多视图编码、匹配和融合的少样本细粒度行为识别
通过使用深度信息作为场景的载体,并使用多个非严格对应的深度片段合成新的实例,以及提出了一种新颖的深度引导自适应实例标准化 (DGAdaIN) 融合模块,本文提出了一种自适应元融合网络,用于解决少样本视频识别的问题。
Oct, 2020
本研究介绍了针对少样本学习的视频动作识别任务,采用双流模型和三种常见的基于度量的算法,通过一组卷积和递归神经网络视频编码器进行训练和评估,证实了双流设置的重要性,并发现原型网络和池化长短期记忆网络嵌入为少样本方法和视频编码器提供了最佳性能。在 Kinetics 600 数据集上进行的 5-shot、5-way 任务中,该设置在测试集上获得了 84.2% 的准确度,而在混淆度较高的 “挑战” 测试集上获得了 59.4% 的准确度。
Sep, 2019
本文介绍了一种新的联合学习框架 S^3M-Net,用于同时进行语义分割和立体匹配,通过特征共享和融合来提高整体场景理解能力,通过最小化语义一致性引导损失来训练整个联合学习框架,在 vKITTI2 和 KITTI 数据集上进行实验,证明了该框架的有效性和超越其他单任务网络的性能。
Jan, 2024
在最近几年,少量样本行为识别引起了越来越多的关注。该领域通常采用元学习的范式。在有限样本的基础上,克服类别的重叠分布和异常值仍然是一个具有挑战性的问题。我们相信多模态和多视角相结合可以改善这个问题,取决于信息的互补性。因此,我们提出了一种基于多模态融合的多视角蒸馏方法。首先,构建一个用于查询的概率提示选择器,根据支持样本的提示嵌入和查询的视觉嵌入之间的比较分数生成概率提示嵌入。其次,在每个视角中,我们将提示嵌入与视觉嵌入以及全局或局部时间上下文融合,克服类别的重叠分布和异常值。第三,我们对多视角进行距离融合,并进行互相之间的匹配能力蒸馏,使模型对分布偏差更加鲁棒。我们的代码可在以下网址找到:https://github.com/cofly2014/MDMF。
Jan, 2024
本文提出了一种基于 2D CNN 骨干网络的新的多视图融合(MVF)模块,用于视频动作识别中的时空建模,并利用可分离卷积实现了高效处理,实验结果表明,该方法在不降低识别精度的情况下降低了模型复杂度。
Dec, 2020
我们提出了一种简单而有效的语义感知少样本动作识别模型(SAFSAR),该模型通过直接利用 3D 特征提取器与有效的特征融合方案以及简单的余弦相似度分类,实现了更好的性能,无需复杂的距离函数和额外的时间建模组件。在这种方案中,SAFSAR 以一种紧凑的方式实现了对文本语义的编码、视频表示的自适应特征融合,并鼓励视觉编码器提取更具语义一致性的特征。在各种设置下对五个具有挑战性的少样本动作识别基准进行的实验证明,所提出的 SAFSAR 模型显著提高了最先进的性能。
Nov, 2023
多视角基于事件的行为识别框架 HyperMV 在多视角事件数据利用方面填补了现有研究的差距,并引入了最大的多视角基于事件的行为数据集 THU-MV-EACT-50,通过实验结果证明 HyperMV 在跨主体和跨视角情况下明显优于基线模型,同时在基于帧的多视角行为识别方面超越了现有的技术水平。
Mar, 2024
本文提出了一种名为 SGML-Net 的框架,用于 few-shot 细粒度视觉识别。它通过利用显著性检测模型强调每个子类别的关键区域,提供了代表性学习的强大先验知识,并在互相学习的范式下实现了有效的转移。实证评估表明,所提出的方法具有优越的性能。
May, 2023
提出一种新颖的多视图动作识别方法,通过可学习的变换器解码查询和两个监督对比损失将学习到的动作特征与视图信息分离,从而显著提高了多视图动作识别的性能。
Dec, 2023
本文研究了基于视觉编码器和多模式视频文本交叉编码器的两个框架,通过结合 CNN 视觉和 Transformer 编码器,增强了细粒度行动识别的效果,并在 FineGym 基准数据集上取得了最新的最优性能。
Aug, 2022