Jan, 2024

数百万视频上的视觉语言模型蒸馏

TL;DR本研究利用合成的教学数据对图像语言基准进行微调,生成高质量的视频标题,构建适应视频和语言的模型,并在多个视频-语言基准上取得了显著结果。