BriefGPT.xyz
大模型
Ask
alpha
关键词
video-language
搜索结果 - 2
CVPR
使用遮蔽视觉建模的端到端视频 - 语言变压器的实证研究
本文系统研究了遮蔽视觉建模(MVM)在视频 - 语言(VidL)预训练中的应用,基于全面的端到端 VIdeO-LanguagE 变换器(VIOLET),提出了 8 种不同的 MVM 重构目标,从低级像素值到高级深度图、光流和潜在的视觉特征。
→
PDF
2 years ago
一体化:探索统一的视视频 - 语言预训练
介绍了一种基于 all-in-one Transformer 的视频 - 语言端到端模型,采用新的 token rolling 操作,实现了视频数据的时间表示方式,同时赋予模型能够处理多模态输入的能力。该模型通过 fine-tuning 能
→
PDF
2 years ago
Prev
Next