BriefGPT.xyz
Ask
alpha
关键词
video-language understanding
搜索结果 - 3
VideoTree:基于自适应树的视频表示方法用于长视频的 LLM 推理
VideoTree 是一种用于视频理解的查询自适应和分层框架,利用大型语言模型的推理能力,通过动态提取与查询相关的信息并构建基于树的表示来提高推理准确性和效率。与现有方法相比,VideoTree 在 EgoSchema、NExT-QA 和
→
PDF
a month ago
多模态新闻理解与专业标注视频
通过对 ReutersViLNews 数据集进行大规模分析,我们发现新闻导向的视频对当前视频语言理解算法构成了重大挑战,并提供了未来解决 ReutersViLNews 数据集的方法。
PDF
5 months ago
MM
RTQ:基于图文模型重新思考视频语言理解
我们提出了一种名为 RTQ(Refine,Temporal model 和 Query)的新型框架,同时解决了视频语言理解中的信息冗余、时序依赖和场景复杂度等挑战,这种方法通过对帧内冗余信息的优化、建模帧之间的时序关系和从视频中查询任务特定
→
PDF
7 months ago
Prev
Next