Apr, 2024

从图像到视频,多模态 LLMs 需要什么?

TL;DR提出一种高效的方法,通过调整图像多模态语言模型的图像融合模块,利用图像多模态语言模型的先验知识,实现从图像到视频多模态语言模型的资源高效转换,从而提高视频多模态语言模型的时间理解能力,以更少的数据和资源进行训练。