BriefGPT.xyz
Ask
alpha
关键词
videollms
搜索结果 - 3
KeyVideoLLM:面向大规模视频关键帧选择
通过基于文本 - 视频帧相似度的关键帧选择方法,KeyVideoLLM 能够高效、鲁棒、有效地管理 VideoLLM 数据,并在视频问答任务中显著改善模型性能,实验结果一直保持在最新技术的前沿。
PDF
3 days ago
GUI-WORLD: GUI 导向的多模态基于 LLM 的 Agent 数据集
该研究论文介绍了一个新的数据集,名为 GUI-World,包含六种 GUI 场景和八种 GUI 问题类型的人工 - MLLM 注释,评估了当前最先进的 MLLMs(包括 ImageLLMs 和 VideoLLMs)在理解各种 GUI 内容方
→
PDF
20 days ago
LongVLM:通过大型语言模型实现高效长视频理解
使用长视频理解任务中的 Large Language Models(LLMs)面临的挑战,本文提出了一种名为 LongVLM 的 VideoLLM 模型,通过分解长视频为短期片段,并使用分层令牌合并模块编码局部特征,维护顺序,整合全局语义信
→
PDF
3 months ago
Prev
Next