CVPRJul, 2022

Ego4D 长期动作预测的 Video + CLIP 基线

TL;DR本文报道了我们在长期行动预测方面使用图像 - 文本模型的调整。我们的视频 + CLIP 框架利用了大规模预先训练的成对图像 - 文本模型:CLIP 和视频编码器 Slowfast 网络。两个编码器得到的特征互补,因此在 Ego4D 上的长期行动预测任务中优于基线。我们的代码位于 github.com/srijandas07/clip_baseline_LTA_Ego4d。