BriefGPT.xyz
Ask
alpha
关键词
video-related tasks
搜索结果 - 3
PLLaVA:基于图像到视频的无参数 LLaVA 扩展用于视频密集字幕
通过引入一种简单但有效的汇聚策略,本文将图像 - 语言预训练模型应用于视频理解任务,并在问题回答和字幕生成等基准测试上取得了最新的最佳表现。
PDF
2 months ago
Elysium:透过 MLLM 探索视频中的物体层次感知
通过在大型视频数据集上进行大规模预训练,我们提出了一种全新的多模态大型语言模型(MLLM),名为 Elysium,该模型可以在视频中进行物体级任务,而无需任何其他插件或专家模型。
PDF
3 months ago
CVPR
通过跟踪视频裁剪进行无监督视觉表征学习
本文旨在通过使用追踪作为代理任务,设计了一个 Catch-the-Patch(CtP)游戏,让 3D-CNN 模型学习图像表示,以帮助视频相关任务的完成。经过广泛实验,CtP 预训练特征与其他视频预训练方法相比具有更优异的性能。
PDF
3 years ago
Prev
Next