MMDec, 2023

RTQ:基于图文模型重新思考视频语言理解

TL;DR我们提出了一种名为 RTQ(Refine,Temporal model 和 Query)的新型框架,同时解决了视频语言理解中的信息冗余、时序依赖和场景复杂度等挑战,这种方法通过对帧内冗余信息的优化、建模帧之间的时序关系和从视频中查询任务特定信息来实现。令人惊讶的是,即使在无视频语言预训练的情况下,我们的模型也表现出色,并且结果与或优于最先进的预训练方法。