BriefGPT.xyz
Ask
alpha
关键词
violet
搜索结果 - 3
紫罗兰:一种基于 Gemini 解码器的阿拉伯语图像描述的视觉语言模型
基于图像编码器和 Gemini 文本解码器的视觉 - 语言模型 Violet,通过从现有英文数据集中自动获取数据,并手动准备新的数据集进行评估,显著提高了在所有评估数据集上的性能。
PDF
8 months ago
CVPR
使用遮蔽视觉建模的端到端视频 - 语言变压器的实证研究
本文系统研究了遮蔽视觉建模(MVM)在视频 - 语言(VidL)预训练中的应用,基于全面的端到端 VIdeO-LanguagE 变换器(VIOLET),提出了 8 种不同的 MVM 重构目标,从低级像素值到高级深度图、光流和潜在的视觉特征。
→
PDF
2 years ago
VIOLET: 基于端到端视频 - 语言变换器的遮蔽视觉令牌建模
VIOLET 是一个采用视频变换器来显式建模视频输入的全尺寸端到端视频语言变换器,通过设计一个新的预训练任务 Masked Visual-token Modeling(MVM)进行更好的视频建模,综合分析证明了其显式时间建模和 MVM 的有
→
PDF
3 years ago
Prev
Next