ICCVAug, 2023

Tem-adapter: 图像文本预训练方法用于视频问答

TL;DR通过引入 Tem-Adapter,结合视觉时间对齐器和文本语义对齐器,利用图像预训练的知识来弥合图像和视频领域之间的差距,以实现学习时间动力学和复杂语义的目的,并通过两个 VideoQA 基准测试验证了该方法的有效性。