CVPRJun, 2022

重新审视视频语言理解中的 “视频

TL;DR通过提出 atemporal probe 模型,本文探讨了视频和语言任务中现有的模型的局限性和潜力,并发现即使在面向较深层次视频理解的基准测试中,理解事件时间通常也不是实现强大或最新技术的性能所必需的。