ICCVAug, 2023
Tem-adapter: 图像文本预训练方法用于视频问答
Tem-adapter: Adapting Image-Text Pretraining for Video Question Answer
Guangyi Chen, Xiao Liu, Guangrun Wang, Kun Zhang, Philip H.S.Torr...
TL;DR通过引入 Tem-Adapter,结合视觉时间对齐器和文本语义对齐器,利用图像预训练的知识来弥合图像和视频领域之间的差距,以实现学习时间动力学和复杂语义的目的,并通过两个 VideoQA 基准测试验证了该方法的有效性。