从外向内视角理解跨视角动作识别

May, 2023

从外向内视角理解跨视角动作识别

Cross-view Action Recognition Understanding From Exocentric to Egocentric Perspective

Thanh-Dat Truong, Khoa Luu

TL;DR提出了一种跨视角学习的方法，通过分析不同视角下的摄像机位置并引入基于几何约束的注意力机制，以加强深度学习模型在个人视频中的动作识别能力。实验证明这种方法在标准的个人视频动作识别基准测试中表现良好，并达到了最先进的性能。

Abstract

Understanding action recognition in egocentric videos has emerged as a vital research topic with numerous practical applications. With the limitation in the scale of egocentric data collection, learning robust

egocentric videos action recognition deep learning cross-view learning self-attention mechanism

发现论文，激发创造

Exo2EgoDVC：使用网络教育视频进行以自我为中心的程序性活动的密集视频标题生成

提出了一种用于稠密视频字幕的跨视图知识传递的新型基准，从具有外视图的网页教学视频调整模型以适应内视图领域。

Nov, 2023

将自己置身于你的位置：解除来自非中心视频的以自我为中心的视角

研究探讨外心 - 内心跨视角转换，提出一种名为 Exo2Ego 的生成框架，将转换过程分解为高层次结构转换和基于扩散的像素级幻觉，为未来进一步的发展提供了一个综合的外心 - 内心跨视角转换基准，并通过实验证实了 Exo2Ego 在生成仿真质量和泛化能力方面优于其他基准。

Mar, 2024

检索增强的视觉第一人称视频字幕生成

从第一人称视角的视频中理解人类行为面临着重要挑战。本文提出了 EgoInstructor 模型，它能够自动检索语义相关的第三人称指导视频，以增强第一人称视频的视频字幕生成。通过对不同规模的第一人称和第三人称数据集进行自动配对来训练跨视角检索模块，并通过新颖的 EgoExoNCE 损失函数将第一人称和第三人称视频特征与描述相似行为的共享文本特征对齐。通过大量实验证明，跨视角检索模块在七个基准上表现出优越性能。借助第三人称视频作为参考，EgoInstructor 在第一人称视频字幕生成方面展现了显著的改进。

Jan, 2024

自我视角在视角不变动作识别中的作用

本文主要研究如何利用佩戴式摄像头所获得的数据进行行为识别。研究发现，使用卷积神经网络进行自我视角识别可以开辟行为识别领域的新研究视角。

Jun, 2019

Ego-Exo：将第三人称视频的视觉表示转移到第一人称视频

本文提出使用大规模第三人称视频数据集进行预训练的以自我为中心的视频模型方法，通过在第三人称视频中发现预测自我特定属性的潜在信号，并将其作为知识蒸馏损失融入模型预训练中，在精细调节进行自我中心的活动识别时表现出最佳表现，取得 Charades-Ego 和 EPIC-Kitchens-100 的最新成果。

Apr, 2021

通过时间对齐从未成对的自我 - 外在视频中学习细粒度视角不变表示

本文提出了一种 AE2 的自我监督嵌入方法，专门用于从 Ego-Exo 上下文的视角中学习不变的微观动作特征，并且在细粒度的视频理解任务中均表现出优异的性能。

Jun, 2023

基于 3D 地图的自我中心活动识别及定位

提出了一种基于深度概率模型的方法，结合视角与环境信息，实现对运动轨迹和动作识别的 3D 场景理解与定位

May, 2021

利用多任务学习提升自我中心行为识别

本文提出了一种使用多任务学习的方法，通过并行训练网络来提高动作识别的准确率，并同时实现手部和凝视估计的辅助任务。在多个数据集上的实验证明，该方法在动作识别上的性能明显优于单任务学习模型，并可以准确预测手部和凝视位置。

Sep, 2019

以自我为中心的手部跟踪和基于对象的人类动作识别

该论文研究了从第一人称视角获取图像和视频的发展趋势，采用图像识别和区域跟踪技术进行视觉场景中手的识别和动作的分类，表明使用区域兴趣描述视频的信息可以被依靠，来对与手有关的人体动作进行分类。

May, 2019

同步即足够：无标注同步视频对于时间动作分割的非中心到中心转化

将一种最初设计用于固定摄像机的时间动作分割系统转移到身份摄像机的情景中，无需收集并标记新的以身份摄像机为主体的视频数据集来适应该模型。通过利用现有标记的以外离摄像机视频和一套新的未标记、同步的以外离 - 以身份摄像机视频对，我们提出了一种新的方法论来进行适应。我们基于知识蒸馏的方法实现了该方法论，从特征和模型两个层面进行了研究。在 Assembly101 数据集上评估我们的方法，结果表明该方法与经典的无监督领域适应和时间序列对齐方法相比是可行和有效的。值得注意的是，我们最好的模型在不需要看到任何以身份摄像机标签的情况下，在 Assembly101 数据集上的编辑得分比仅在以外离数据上训练的基线模型得到了 + 15.99% 的提高（28.59% vs 12.60%）。

Dec, 2023