CVPRApr, 2024
VideoDistill: 视频问答的语言感知视觉蒸馏
VideoDistill: Language-aware Vision Distillation for Video Question Answering
Bo Zou, Chao Yang, Yu Qiao, Chengbin Quan, Youjian Zhao
TL;DR通过受到人类认知和学习模式的启发,我们提出了一种视频问题回答(VideoQA)的框架 VideoDistill,该框架在视觉感知和答案生成过程中具有语言感知(即以目标驱动为特征)的行为,通过思考、观察和回答的方式生成与问题相关的显著图像。