BriefGPT.xyz
大模型
Ask
alpha
关键词
video foundation models
搜索结果 - 3
视频理解基础模型综述
此研究简化了近 200 种视频基础模型,对 14 个不同的视频任务进行了综合概述,并在这些任务中对 6 个最常见的任务进行了性能分析。该研究发现,图像为基础的模型在大多数视频理解任务上持续表现优异,而利用多种模式的通用基础模型在视频任务上表
→
PDF
2 months ago
SalFoM: 动态视频基础模型的显著性预测
使用视频基础模型,我们引入了 SalFoM,一种新颖的编码器 - 解码器视频 Transformer 架构,通过特征提取器 UnMasked Teacher(UMT)和包含局部感知的时空 Transformer 的异构解码器,从多个角度融合
→
PDF
3 months ago
CVPR
VideoMAE V2: 基于双重蒙版的视频自编码器扩展
本文介绍了使用视频掩码自编码器(VideoMAE)进行可扩展和一般自监督预训练,用于构建视频基础模型和在各种下游任务中取得新的最先进表现的新方法。
PDF
a year ago
Prev
Next