BriefGPT.xyz
大模型
Ask
alpha
关键词
video language models
搜索结果 - 2
使用 VLM 进行零 - shot 视频问答:图像栅格能表达视频的价值
该研究提出了一种简洁而新颖的策略,利用图像网格的形式,将视频转化为单个复合图像,从而实现了对视频进行直接的高性能视觉语言模型的应用,无需任何视频数据训练,并在十个零样本视频问答基准中的九个基准中超越现有方法。
PDF
3 months ago
一段视频胜过万言:利用多样化字幕进行更好的长视频检索的训练和基准测试
通过对长视频生成多样的合成标题,使用大型语言模型评估长视频检索系统的能力,并提出轻量级微调方法(基于对不同标题中信息层级的差异进行对比损失学习),在下游的段落 - 视频检索任务以及使用合成数据计算的各种长视频检索度量上均有明显提升。
PDF
7 months ago
Prev
Next