Mar, 2024

背包里装满技能:多角度任务视角下的自我中心视频理解

TL;DR为了将对视频流的整体感知有效地传递给智能机器,我们通过学习将概念关联和来自不同任务的抽象知识协同利用来学习新技能,提出了一种统一的视频理解方法,它结合了人类行为的共享时间建模和最小开销,支持多个下游任务及在学习新技能时的合作,并通过四个 Ego4D 基准测试表明了我们方法的有效性和高效性。