Apr, 2024

PLLaVA:基于图像到视频的无参数 LLaVA 扩展用于视频密集字幕

TL;DR通过引入一种简单但有效的汇聚策略,本文将图像 - 语言预训练模型应用于视频理解任务,并在问题回答和字幕生成等基准测试上取得了最新的最佳表现。