- 多模态跨领域少样本学习用于主体动作识别
通过多模态输入和无标签目标数据解决跨领域少样本学习中视角行为识别的两个关键挑战,即视角视频的领域差异和实际应用的计算成本问题。提出了 MM-CDFSL 方法,通过教师模型的多模态蒸馏和集成遮蔽推理,增强模型对目标域的适应性并提高推理速度。在 - 我的视角,我的双手:准确的自视角二维手势姿态和动作识别
通过探索 2D 手势姿态评估用于自我中心动作识别的领域,我们提出了两种新方法:EffHandNet 用于单手姿态估计和 EffHandEgoNet 用于自我视角,捕捉手部与物体之间的交互。同时,我们提出了一个从 2D 手部和物体姿态的坚固的 - 关于利用三维手势姿势进行动作识别的实用性研究
手势建模是行为识别的一种未充分探索的方式。我们提出了一种新颖的多模态变换器 HandFormer 来高效地对手势和场景语义进行建模,该方法在处理效率和准确率方面具有显著优势,并在自我中心行为识别方面取得了最新的最好性能。
- 自由组合网络用于自我中心动作识别
本研究提出了一种自由形态组合网络 (FFCN),可以同时学习语义动词、介词和名词的分离表示,并利用它们在特征空间中组合新的样本,以处理视角行动识别中数据稀缺的问题。
- EgoAdapt: 面向现实世界自我中心用户视频的多流评估研究
本研究提出了一个适应性范例,涉及到实时情境下的自我行为识别,并针对其在用户领域进行了优化,构建了 EgoAdapt 评估框架以应对现实中的挑战,同时提供了直接利用用户数据流进行度量的新指标,并且在 50 个独立的用户流之间进行元评估。
- CVPRMMG-Ego4D: Egocentric 动作识别多模态泛化
该研究论文探讨了在自心视角动作识别中一个新的问题,即 “多模态推广”,研究了系统在某些模态的数据受限或完全缺失时如何进行推广,并构建了一个包含视频、音频和惯性运动传感器模态的数据集。
- SOS!基于自我监督学习的被处理物体集合在视角动作识别中的应用
采用自助学习技术的 “自我监督学习 over sets”(SOS) 方法,从视频数据的对象区域中提取表示对象的图像特征,结合自然数据转换过程中的时空连续性和对象集内在关系,实现了人物自身操作的行为识别,显著提升了多个最先进的视频分类模型的性 - CVPRE$^2$(GO) MOTION:一种用于第一视角动作识别的动作增强事件流技术
本文提出了利用事件相机数据进行自我中心行为识别的两种策略,并将其应用于首个基于事件相机的视频数据集,结果表明,事件数据不仅可在不需要流计算的情况下提供与 RGB 和光流同等的性能,而且相比仅使用 RGB 信息提高了 4%的表现。
- CVPR统一几个与零个拍摄的自我中心动作识别
本文通过将 few-shot generalization 和 zero-shot generalization 相结合,并在传统的直接对齐基线上添加度量学习损失,探索了面向 open-set 分类的通用化方法,并在基于 EPIC-KITC - ICCV看和听自我的行动:我们能学到多少?
本文提出了一种基于音频和视觉信息的厨房环境中的多模态方法,利用稀疏时间采样策略,通过音频、空间和时间流的后期融合,在 EPIC-Kitchens 数据集上实验表明多模态方法比单模态方法更好地提高了动作识别性能,特别是在动词分类上实现了 5. - ICCVEPIC-Fusion: 基于视听时空绑定的第一人称动作识别
提出了一种多模态融合架构,采用中层融合以及稀疏地对融合表示进行时间采样,将 RGB、Flow 和 Audio 三种模态进行融合,重点研究了多模态时间绑定,逐步改进,取得最先进的结果。
- CVPR识别自我为中心物体交互,音频有多重要?
本研究提出了一种音频模型,用于主体中心的动作识别,通过轻量化的架构,在视觉基础的标准数据集上取得了有竞争力的动词分类结果(34.26% 准确率)
- 深入探究第一人称活动识别
本研究提出了一种双流网络架构,其中一个流分析外观信息,另一个流分析动作信息,并利用卷积神经网络在手势外观、对象属性、本地手势运动和相机自我运动等方面的知识信息,可以有效地提高第一人称视角下动作识别的准确率。