May, 2024

Shotluck Holmes:用于视频字幕和摘要的高效小规模大语言视觉模型家族

TL;DR我们提出一种名为 Shotluck Holmes 的高效大型语言视觉模型 (LLVMs),通过改进预训练和数据收集策略,扩展现有小型 LLVMs 的能力,从仅能理解一张图片到能够理解连续的帧序列,在 Shot2Story 视频字幕和摘要任务上取得比最先进结果更好的性能,同时模型尺寸更小、计算效率更高。