CVPRApr, 2021

Ego-Exo:将第三人称视频的视觉表示转移到第一人称视频

TL;DR本文提出使用大规模第三人称视频数据集进行预训练的以自我为中心的视频模型方法,通过在第三人称视频中发现预测自我特定属性的潜在信号,并将其作为知识蒸馏损失融入模型预训练中,在精细调节进行自我中心的活动识别时表现出最佳表现,取得 Charades-Ego 和 EPIC-Kitchens-100 的最新成果。