Nov, 2024

T2Vid:将长文本翻译为多图像是视频大语言模型的催化剂

TL;DR本研究解决了多模态大语言模型在视频理解方面的有效性不足和时序理解能力欠缺的问题。通过提出T2Vid方法,合成视频类样本来丰富训练语料中的指令多样性,显著提高了模型在长视频理解方面的表现,且训练样本只需全量的15%。我们的研究希望激发更多关于利用多模态大语言模型进行视频理解和高质量数据集构建的思考。