CVPRApr, 2024

VideoDistill: 视频问答的语言感知视觉蒸馏

TL;DR通过受到人类认知和学习模式的启发,我们提出了一种视频问题回答(VideoQA)的框架 VideoDistill,该框架在视觉感知和答案生成过程中具有语言感知(即以目标驱动为特征)的行为,通过思考、观察和回答的方式生成与问题相关的显著图像。