从外向内视角理解跨视角动作识别
提出了一种用于稠密视频字幕的跨视图知识传递的新型基准,从具有外视图的网页教学视频调整模型以适应内视图领域。
Nov, 2023
研究探讨外心 - 内心跨视角转换,提出一种名为 Exo2Ego 的生成框架,将转换过程分解为高层次结构转换和基于扩散的像素级幻觉,为未来进一步的发展提供了一个综合的外心 - 内心跨视角转换基准,并通过实验证实了 Exo2Ego 在生成仿真质量和泛化能力方面优于其他基准。
Mar, 2024
从第一人称视角的视频中理解人类行为面临着重要挑战。本文提出了 EgoInstructor 模型,它能够自动检索语义相关的第三人称指导视频,以增强第一人称视频的视频字幕生成。通过对不同规模的第一人称和第三人称数据集进行自动配对来训练跨视角检索模块,并通过新颖的 EgoExoNCE 损失函数将第一人称和第三人称视频特征与描述相似行为的共享文本特征对齐。通过大量实验证明,跨视角检索模块在七个基准上表现出优越性能。借助第三人称视频作为参考,EgoInstructor 在第一人称视频字幕生成方面展现了显著的改进。
Jan, 2024
本文提出使用大规模第三人称视频数据集进行预训练的以自我为中心的视频模型方法,通过在第三人称视频中发现预测自我特定属性的潜在信号,并将其作为知识蒸馏损失融入模型预训练中,在精细调节进行自我中心的活动识别时表现出最佳表现,取得 Charades-Ego 和 EPIC-Kitchens-100 的最新成果。
Apr, 2021
本文提出了一种 AE2 的自我监督嵌入方法,专门用于从 Ego-Exo 上下文的视角中学习不变的微观动作特征,并且在细粒度的视频理解任务中均表现出优异的性能。
Jun, 2023
本文提出了一种使用多任务学习的方法,通过并行训练网络来提高动作识别的准确率,并同时实现手部和凝视估计的辅助任务。在多个数据集上的实验证明,该方法在动作识别上的性能明显优于单任务学习模型,并可以准确预测手部和凝视位置。
Sep, 2019
该论文研究了从第一人称视角获取图像和视频的发展趋势,采用图像识别和区域跟踪技术进行视觉场景中手的识别和动作的分类,表明使用区域兴趣描述视频的信息可以被依靠,来对与手有关的人体动作进行分类。
May, 2019
将一种最初设计用于固定摄像机的时间动作分割系统转移到身份摄像机的情景中,无需收集并标记新的以身份摄像机为主体的视频数据集来适应该模型。通过利用现有标记的以外离摄像机视频和一套新的未标记、同步的以外离 - 以身份摄像机视频对,我们提出了一种新的方法论来进行适应。我们基于知识蒸馏的方法实现了该方法论,从特征和模型两个层面进行了研究。在 Assembly101 数据集上评估我们的方法,结果表明该方法与经典的无监督领域适应和时间序列对齐方法相比是可行和有效的。值得注意的是,我们最好的模型在不需要看到任何以身份摄像机标签的情况下,在 Assembly101 数据集上的编辑得分比仅在以外离数据上训练的基线模型得到了 + 15.99% 的提高(28.59% vs 12.60%)。
Dec, 2023