BriefGPT.xyz
Ask
alpha
关键词
video-llms
搜索结果 - 3
LLMs 迎接长视频:LLMs 中使用互动视觉适配器提升长视频理解
通过使用交互式视觉适配器 (IVA) 在大型语言模型(LLMs)内部增强与细粒度视觉元素的互动,我们提出的视频 - LLM 通过适当的长视频建模和精确的视觉交互,实现了对长视频内容的全面理解,并显著提高了长视频问答任务的性能。
PDF
5 months ago
Momentor:利用细粒度时间推理推进视频大型语言模型
提出了 Momentor,一种能够完成细粒度时态理解任务的 Video-LLM,并通过 Moment-10M 数据集的训练,使其在细粒度理解和定位方面表现出色。
PDF
5 months ago
Video-Bench:用于评估基于视频的大型语言模型的综合基准和工具包
视频型大型语言模型(Video-LLM)的评估系统是本文提出的主题,通过建立全面的基准测试系统,评估多种任务下的 Video-LLM 能力水平,揭示当前模型在理解和分析真实世界视频方面与人类的差距,提供有价值的研究方向。
PDF
7 months ago
Prev
Next