BriefGPT.xyz
Ask
alpha
关键词
scalable vision-language models
搜索结果 - 1
EVE: 基于掩码预测和模态感知的高效视觉 - 语言预训练
本文介绍了一种高效的视觉 - 语言基础模型 EVE,该模型通过一个统一的预训练任务,在共享的 Transformer 网络中编码了视觉和语言,并利用专注于模态性的稀疏的 Mixture-of-Experts 模块来捕捉模态特定信息。通过对图
→
PDF
10 months ago
Prev
Next