CVPRDec, 2022

自我中心视频任务翻译

TL;DR穿戴式摄像头的全息自我视角下,手 - 物体操纵、空间导航和人 - 人交互等视频理解任务是相互关联的,EgoTask Translation (EgoT2) 提出了一种统一的解决方法,采用多任务学习的翻转设计,通过优化多个模型,实现在所有任务上的改进性能。在 Ego4D 视频挑战中,实验表明其优于现有 transfer 范式,并在其中四项挑战中取得了最佳成绩。