CVPRMay, 2021

NExT-QA:问答到解释时间动作的下一阶段

TL;DR介绍了 NExT-QA,它是一个具有严谨设计的视频问答基准,旨在将视频理解从描述转化为解释时间动作;通过分析基线和现有的视频问答技术,发现表现最好的方法擅长浅层场景描述,但在因果和时间动作推理方面较弱。通过详细结果和启发式观察,希望 NExT-QA 能引导下一代视频问答研究超越表面的场景描述,实现对视频更深入的理解。