Nov, 2023

视频LLaVA:前投影前学习统一视觉表示

TL;DR该研究论文提出了一种统一的大规模视觉语言模型(LVLM),通过在语言特征空间中统一视觉表示,学习多模态交互,从而在图像和视频基准任务上取得了卓越性能。