Oct, 2024

xGen-MM-Vid (BLIP-3-Video): 只需32个标记即可表示视频

TL;DR该研究针对视频处理中的效率问题,提出了一种新的多模态语言模型BLIP-3-Video,利用时间编码器显著减少了对视觉标记的需求。实验结果表明,BLIP-3-Video在视频问答准确性上与更大规模的先进模型相当,但模型体积更小、效率更高。