Jul, 2024

Video-STaR:利用自训练实现任意监督下的视频指导调优

TL;DR通过视频自我训练方法(Video-STaR)将具有多样标签和监督的视频数据集集成到大型视觉语言模型(LVLMs)中,以提高其性能,并展示在一般视频问答和下游任务中的改进效果。