Apr, 2022

从特征和样本的视角重新思考视频问答中的多模态对齐

TL;DR本论文提出一种基于多模态对齐、轨迹特征、层次化框架和训练数据扩充的视频问答方法,并在 NExT-QA 基准测试上表现出很高的性能。