ICCVMay, 2022

从网络视频中学习回答视觉问题

TL;DR为了避免手动注释,提出了利用自动交叉模态监督生成视频问答数据集的方法,通过使用问题生成变形器从语音转录中生成问题 - 答案对,然后根据视频 - 问题多模式变形器和答案变形器之间的对比损失训练处理答案的多模式变形器,生成如何 VQA69M,WebVidVQA3M 和 iVQA 等不同数据集,结果表明在多个数据集上其结果优秀。