ECCVJul, 2022

视频问题回答的视频图变换器

TL;DR该研究论文提出了一种名为 VGT 的视频图形转换器模型,旨在解决视频问答任务中动态关系推理方面的挑战,其独特性在于利用动态图形变换器模块对视频进行编码,并利用分离的视频和文本变换器来执行问答任务。通过充分的分析和启发性的观察,证明了 VGT 的有效性和优越性,并揭示了其可用于更数据有效的预训练。