Nov, 2023

Mug-STAN:适用于通用视频理解的图像语言预训练模型的调整

TL;DR我们在这篇论文中研究了从模型和数据的角度来展示图像到视频转换的挑战,并提出了一种名为Mug-STAN的简单而有效的框架,通过解决非一般化时序建模和部分不匹配的视频文本数据的问题,将图像-文本模型扩展到多样化的视频任务和视频-文本数据。