BriefGPT.xyz
Ask
alpha
关键词
shots
搜索结果 - 1
Shotluck Holmes:用于视频字幕和摘要的高效小规模大语言视觉模型家族
我们提出一种名为 Shotluck Holmes 的高效大型语言视觉模型 (LLVMs),通过改进预训练和数据收集策略,扩展现有小型 LLVMs 的能力,从仅能理解一张图片到能够理解连续的帧序列,在 Shot2Story 视频字幕和摘要任务
→
PDF
a month ago
Prev
Next