- 视频基于少样本行为识别模型的跨领域能力理解
本研究在跨领域少样本动作识别问题中,通过系统性评估已有的单领域、基于迁移的和跨领域方法,发现领域差异与性能之间存在相关性,揭示了一些对 CD-FSAR 方法有效的模型方面,以及需要进一步发展的方面,希望这些洞见能够激发和指导未来在这些方向上 - MVP-Shot:多速度渐进对齐框架在少样本动作识别中的应用
通过提出一种多速度渐进对齐的方法,在多个常见的少样本动作识别基准测试上,我们的方法在精度上超越了现有的最先进方法。
- 学习领域不变的少样本动作识别的时间动态
我们提出了 DITeD,或称为领域不变的时间动力学,在有限的样本和分布偏移的情况下,通过快速适应预训练模型来识别和利用预训练模型学到的可转移知识,其中关键挑战是如何识别和利用潜在变量之间的时间不变性(领域不变性)进行知识转移。
- 基於多模態融合的多視角教師蒸餾方法用於少樣本動作識別
在最近几年,少量样本行为识别引起了越来越多的关注。该领域通常采用元学习的范式。在有限样本的基础上,克服类别的重叠分布和异常值仍然是一个具有挑战性的问题。我们相信多模态和多视角相结合可以改善这个问题,取决于信息的互补性。因此,我们提出了一种基 - 基于对比学习的少样本动作识别的双流联合匹配方法
基于对比学习的双流联合匹配 (TSJM) 方法在少样本动作识别中解决了动作关系建模、多模态信息利用不足、不同长度和速度的视频匹配问题,以及视频子动作不对齐的匹配问题。
- D$^2$ST-Adapter:解耦与可变形的时空适配器对于少样本动作识别
此研究论文介绍了适用于少样本动作识别的新型适配器调整框架 (D^2ST-Adapter),其采用双通道架构以解耦空间和时间特征,并设计了可塑性的时空注意力模块,能够在 3D 时空视图中全局建模特征,同时保持轻量级设计。实验证明,这种方法在少 - 少样本动作识别的一致性原型模块与运动补偿
最近,通过学习特征可辨性和设计合适的比较方法,少样本动作识别取得了显著进展。我们提出了一种 Consistency Prototype 和 Motion Compensation Network(CLIP-CP$M^2$C)来解决视觉、标签 - 基于字幕基础模型的少样本动作识别
通过 CapFSAR 框架,我们利用预训练的多模态基础模型的知识,从合成描述中提取视觉特征和相关文本嵌入,并设计了基于 Transformer 的视觉文本聚合模块,以在低样本情况下实现更全面的分类。在多个标准的少样本基准实验中,我们的 Ca - ICCV利用图引导的混合匹配提升少样本动作识别
我们提出了一种新的框架 GgHM,通过图神经网络在类原型构建过程中优化类内和类间特征相关性,并设计了混合匹配策略,结合帧级和元组级匹配来分类具有多变量风格的视频。GgHM 在几个少样本数据集上均展现出对比其他基线模型的持续性改进,证明了我们 - 关于少样本动作识别中空间关系的重要性
通过整合空间关系和时间信息,本文提出了一种新型的少样本动作识别方法 Spatial Alignment Cross Transformer (SA-CT),并利用预训练模型进一步提升性能。
- CLIP 多模态适应用于少样本动作识别
本文提出了一种名为 MA-CLIP 的新方法,旨在通过添加轻量级适配器来适应 CLIP 进行少样本动作识别,从而解决传统方法中的参数调优和时间建模的问题。
- 基于视频内部和交叉信息最大化的小样本动作识别
提出了一个新的框架 Video Information Maximization(VIM),用于 few-shot video action recognition,其中包括自适应的空间 - 时间视频采样器和时空动作对齐模型,以最大化视频信 - CVPRMoLo: 运动增强长短时序对比学习用于少样本动作识别
这篇论文提出了一种基于运动学习和长短对比学习的方法,利用全局视频令牌来增强局部帧特征的长期时间感知,同时使用轻量级的运动自编码器来捕捉动作动态,为全面的少样本匹配提供长程时间上下文和运动线索
- 重新考虑用于小样本动作识别的时空建模
本篇论文提出了 SloshNet,一个新的框架,重新审视少样本动作识别中的空间时间建模,并自动搜索低级和高级空间特征的最佳组合,同时利用 transformer 技术对全局和局部的时间关系进行建模,实现了对四种数据集的优秀结果。
- CVPRHyRSM++:混合关系引导的时间集匹配用于少样本动作识别
HyRSM++ 是一种用于少样本动作识别的混合关系导向时间集匹配方法,能够集成任务内和跨视频相关关系来学习具有区分度的表征,并且能够通过 Bi-MHM 来提升对于不对齐实例的鲁棒性,同时还可处理半监督和无监督少样本动作识别任务。
- ICLRTempCLR:具有对比学习的时间对齐表示法
该论文提出了一种对全视频和段落进行显式比较的对比学习框架 TempCLR,通过使用动态时间规整来计算句子 - 剪辑对的最小累积成本作为序列级距离,它可以探索时间动态,并在视频检索、行动步骤定位和少量动作识别等任务中实现了一致的性能提升。
- 多模式原型增强网络用于少样本动作识别
本文提出了一种基于多模态原型的增强网络(MORN),用于少样本动作识别,包括两个模态流,使用标签文本的语义信息作为多模态信息来增强原型,采用原型相似度差异(PRIDE)评价原型的性能,在四个流行数据集上取得了最先进的结果。
- ECCV时间序列和序列的不确定度 - DTW
该研究介绍了如何对时间序列间的不确定性建模,通过最大似然估计等方法可以实现时间序列的预测和行为识别。
- MM针对少样本动作识别的任务自适应时空视频采样器
本文提出了一种针对 Few-Shot 行为识别的视频帧采样器,采用了时间选择器和空间放大器来实现任务特定的时空帧采样,并采用任务自适应学习来动态调整采样策略。实验结果表明,该采样器在各个基准测试上都具有显著的性能提升。
- ECCV基于复合样本原型匹配的小样本动作识别
本论文提出了一种新颖的方法,将视频汇总为由一组全局原型和一组聚焦原型组成的复合原型,并基于原型进行视频相似性比较,进而用于小样本动作识别,实验结果显示该方法在多个基准测试上达到了最先进的成果。