背包里装满技能：多角度任务视角下的自我中心视频理解

Mar, 2024

背包里装满技能：多角度任务视角下的自我中心视频理解

A Backpack Full of Skills: Egocentric Video Understanding with Diverse Task Perspectives

Simone Alberto Peirone, Francesca Pistilli, Antonio Alliegro, Giuseppe Averta

TL;DR为了将对视频流的整体感知有效地传递给智能机器，我们通过学习将概念关联和来自不同任务的抽象知识协同利用来学习新技能，提出了一种统一的视频理解方法，它结合了人类行为的共享时间建模和最小开销，支持多个下游任务及在学习新技能时的合作，并通过四个 Ego4D 基准测试表明了我们方法的有效性和高效性。

Abstract

Human comprehension of a video stream is naturally broad: in a few instants, we are able to understand what is happening, the relevance and relationship of objects, and forecast what will follow in the near future, everything all at once. We believe that - to effectively transfer such an holistic perception to intelligent machines - an important role is play

video understanding temporal modelling task perspectives egopack state-of-the-art methods

发现论文，激发创造

自我中心视频任务翻译

穿戴式摄像头的全息自我视角下，手 - 物体操纵、空间导航和人 - 人交互等视频理解任务是相互关联的，EgoTask Translation (EgoT2) 提出了一种统一的解决方法，采用多任务学习的翻转设计，通过优化多个模型，实现在所有任务上的改进性能。在 Ego4D 视频挑战中，实验表明其优于现有 transfer 范式，并在其中四项挑战中取得了最佳成绩。

Dec, 2022

EgoTaskQA：理解自我中心视频中的人类任务

通过问题回答对现实生活中的个人行为视频进行对话式任务理解，以制定 EgoTaskQA 基准，并在其中对最先进的视频推理模型进行评估，以此引导视觉界朝着面向目标的视频理解和推理的方向前进。

Oct, 2022

检索增强的视觉第一人称视频字幕生成

从第一人称视角的视频中理解人类行为面临着重要挑战。本文提出了 EgoInstructor 模型，它能够自动检索语义相关的第三人称指导视频，以增强第一人称视频的视频字幕生成。通过对不同规模的第一人称和第三人称数据集进行自动配对来训练跨视角检索模块，并通过新颖的 EgoExoNCE 损失函数将第一人称和第三人称视频特征与描述相似行为的共享文本特征对齐。通过大量实验证明，跨视角检索模块在七个基准上表现出优越性能。借助第三人称视频作为参考，EgoInstructor 在第一人称视频字幕生成方面展现了显著的改进。

Jan, 2024

2022 年 Ego4D 挑战赛中心自我视角视频任务翻译

本技术报告介绍了 Ego4D 挑战中对一组自我中心视频任务的关系进行探索的 EgoTask 翻译方法。我们提出利用已开发用于其他相关任务的现有模型，并设计一个任务翻译器，学习将辅助任务特征 “翻译” 为主要任务，以提高其性能。在没有对基线架构进行任何修改的情况下，我们提出的方法在两个 Ego4D 挑战赛中取得了竞争性的表现，在 “和我说话” 挑战中排名第一，在 PNR 关键帧定位挑战中排名第三。

Feb, 2023

Ego-Exo4D: 理解高技能人类活动的第一人称和第三人称视角

我们提出了 Ego-Exo4D，这是一个多样化、大规模的多模态多视图视频数据集和基准挑战。Ego-Exo4D 集中于同时捕捉到的技能人类活动（例如，体育运动、音乐、舞蹈、自行车修理）的自我中心和外部视角视频，通过来自全球 13 个城市的 800 多名参与者在 131 个不同的自然场景环境中进行了这些活动，每个活动的长时间录制为 1 到 42 分钟不等，总共获得了 1,422 小时的视频。该数据集具有前所未有的多模态特性：视频伴随着多通道音频、眼动数据、3D 点云、相机姿态、IMU 数据以及多个配对的语言描述，包括由教练和教师进行的针对技能活动领域的新颖的 “专家评论”。为了推进对技能人类活动的第一人视角视频理解的研究前沿，我们还提出了一系列基准任务及其标注，包括细粒度活动理解、熟练度估计、跨视角转换和 3D 手 / 身体姿态。所有资源将以开源方式提供，以促进社区中的新研究。

Nov, 2023

基于时间连接序列的自我中心视频描述

本研究旨在利用一种新的方法，即多态输入的注意力循环网络，来描述自我中心影像序列的故事情节，并发布了第一个自我中心影像序列描述数据集，该方法的表现优于传统的注意力编码器 - 解码器方法。

Apr, 2017

自我视角在视角不变动作识别中的作用

本文主要研究如何利用佩戴式摄像头所获得的数据进行行为识别。研究发现，使用卷积神经网络进行自我视角识别可以开辟行为识别领域的新研究视角。

Jun, 2019

自我监督视觉学习中基于计算的接受者目视着物游戏的解释

本研究使用玩具箱数据集和计算机视觉框架进行自我监督对比学习实验，发现通过学习信号，将单个物体的不同视角赋予相似的表示有助于视觉学习的稳健性，这种性能的提高对于多种图像分类任务来说是可持续的。

May, 2023

Ego-Exo：将第三人称视频的视觉表示转移到第一人称视频

本文提出使用大规模第三人称视频数据集进行预训练的以自我为中心的视频模型方法，通过在第三人称视频中发现预测自我特定属性的潜在信号，并将其作为知识蒸馏损失融入模型预训练中，在精细调节进行自我中心的活动识别时表现出最佳表现，取得 Charades-Ego 和 EPIC-Kitchens-100 的最新成果。

Apr, 2021

EgoVideo: 探索自我中心的基础模型和下游适应

本研究报告介绍了我们在 CVPR 2024 年的 EgoVis 挑战中的解决方案，包括 Ego4D 挑战中的五个赛道和 EPIC-Kitchens 挑战中的三个赛道。我们基于视频语言双塔模型，并利用我们精心组织的自我中心视频数据，推出了一种新颖的基础模型 EgoVideo，该模型专门针对自我中心视频的独特特点进行设计，并为我们的竞赛提交提供了强大支持。通过将 EgoVideo 适应到这些多样化任务中，展示了它在不同自我中心视频分析场景中的多功能性和有效性，展示了 EgoVideo 作为自我中心基础模型的强大表示能力。

Jun, 2024