M$^3$Net: 多视图编码、匹配和融合的少样本细粒度行为识别

MMAug, 2023

M$^3$Net: 多视图编码、匹配和融合的少样本细粒度行为识别

M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot Fine-grained Action Recognition

Hao Tang, Jun Liu, Shuanglin Yan, Rui Yan, Zechao Li...

TL;DR通过多视图编码、多视图匹配和多视图融合，M$^3$Net 在 FS-FG 动作识别上具有出色的细节捕捉和卓越的性能。

Abstract

Due to the scarcity of manually annotated data required for fine-grained video understanding, few-shot fine-grained (FS-FG) action recognition has gained significant attention, with the aim of classifying novel fine-grained action categories with only a few labeled instances. Despite the progress made in FS coarse-grained action recognition, current approach

fine-grained action recognition few-shot learning multi-view encoding multi-view matching multi-view fusion

发现论文，激发创造

基于深度引导自适应元融合网络的少样本视频识别

通过使用深度信息作为场景的载体，并使用多个非严格对应的深度片段合成新的实例，以及提出了一种新颖的深度引导自适应实例标准化 (DGAdaIN) 融合模块，本文提出了一种自适应元融合网络，用于解决少样本视频识别的问题。

Oct, 2020

基于度量的视频动作识别小样本学习

本研究介绍了针对少样本学习的视频动作识别任务，采用双流模型和三种常见的基于度量的算法，通过一组卷积和递归神经网络视频编码器进行训练和评估，证实了双流设置的重要性，并发现原型网络和池化长短期记忆网络嵌入为少样本方法和视频编码器提供了最佳性能。在 Kinetics 600 数据集上进行的 5-shot、5-way 任务中，该设置在测试集上获得了 84.2% 的准确度，而在混淆度较高的 “挑战” 测试集上获得了 59.4% 的准确度。

Sep, 2019

S$^3$M-Net: 自主驾驶中语义分割与立体匹配的联合学习

本文介绍了一种新的联合学习框架 S^3M-Net，用于同时进行语义分割和立体匹配，通过特征共享和融合来提高整体场景理解能力，通过最小化语义一致性引导损失来训练整个联合学习框架，在 vKITTI2 和 KITTI 数据集上进行实验，证明了该框架的有效性和超越其他单任务网络的性能。

Jan, 2024

基於多模態融合的多視角教師蒸餾方法用於少樣本動作識別

在最近几年，少量样本行为识别引起了越来越多的关注。该领域通常采用元学习的范式。在有限样本的基础上，克服类别的重叠分布和异常值仍然是一个具有挑战性的问题。我们相信多模态和多视角相结合可以改善这个问题，取决于信息的互补性。因此，我们提出了一种基于多模态融合的多视角蒸馏方法。首先，构建一个用于查询的概率提示选择器，根据支持样本的提示嵌入和查询的视觉嵌入之间的比较分数生成概率提示嵌入。其次，在每个视角中，我们将提示嵌入与视觉嵌入以及全局或局部时间上下文融合，克服类别的重叠分布和异常值。第三，我们对多视角进行距离融合，并进行互相之间的匹配能力蒸馏，使模型对分布偏差更加鲁棒。我们的代码可在以下网址找到：https://github.com/cofly2014/MDMF。

Jan, 2024

MVFNet: 高效视频识别的多视角融合网络

本文提出了一种基于 2D CNN 骨干网络的新的多视图融合（MVF）模块，用于视频动作识别中的时空建模，并利用可分离卷积实现了高效处理，实验结果表明，该方法在不降低识别精度的情况下降低了模型复杂度。

Dec, 2020

面向少样本动作识别的语义感知视频表示

我们提出了一种简单而有效的语义感知少样本动作识别模型（SAFSAR），该模型通过直接利用 3D 特征提取器与有效的特征融合方案以及简单的余弦相似度分类，实现了更好的性能，无需复杂的距离函数和额外的时间建模组件。在这种方案中，SAFSAR 以一种紧凑的方式实现了对文本语义的编码、视频表示的自适应特征融合，并鼓励视觉编码器提取更具语义一致性的特征。在各种设置下对五个具有挑战性的少样本动作识别基准进行的实验证明，所提出的 SAFSAR 模型显著提高了最先进的性能。

Nov, 2023

基于超图的多视角动作识别使用事件摄像机

多视角基于事件的行为识别框架 HyperMV 在多视角事件数据利用方面填补了现有研究的差距，并引入了最大的多视角基于事件的行为数据集 THU-MV-EACT-50，通过实验结果证明 HyperMV 在跨主体和跨视角情况下明显优于基线模型，同时在基于帧的多视角行为识别方面超越了现有的技术水平。

Mar, 2024

基于显著性引导的少样本细粒度视觉识别互学习网络

本文提出了一种名为 SGML-Net 的框架，用于 few-shot 细粒度视觉识别。它通过利用显著性检测模型强调每个子类别的关键区域，提供了代表性学习的强大先验知识，并在互相学习的范式下实现了有效的转移。实证评估表明，所提出的方法具有优越的性能。

May, 2023

DVANet：多视角行为识别中视角和动作特征的解耦合

提出一种新颖的多视图动作识别方法，通过可学习的变换器解码查询和两个监督对比损失将学习到的动作特征与视图信息分离，从而显著提高了多视图动作识别的性能。

Dec, 2023

增强的细粒度人体动作识别的联合 CNN Transformer 编码器

本文研究了基于视觉编码器和多模式视频文本交叉编码器的两个框架，通过结合 CNN 视觉和 Transformer 编码器，增强了细粒度行动识别的效果，并在 FineGym 基准数据集上取得了最新的最优性能。

Aug, 2022