Sep, 2024

QTG-VQA:问题类型引导的视频问答系统架构

TL;DR本研究针对视频问答系统中不同问题类型对性能的影响进行探讨,凸显了现有研究中对问题类型探索不足的问题。提出QTG-VQA架构,通过问题类型引导的注意机制和自适应学习手段,特别设计了针对时间型问题的掩蔽帧建模技术,以增强模型对时间信息的理解和高效学习。实验验证了该方法的有效性,为VideoQA领域提供了新的评估标准和改进方向。