关键词vision-language pretrained model
搜索结果 - 2
- CVPR开放词汇物体检测的学习与分割
本文提出 CondHead 作为一种动态网络设计,通过对语义嵌入条件参数化来指导模型根据类特定知识更好地检测新类别,从而使检测模型通过语义嵌入提供强大的可推广类别框和掩膜预测,并在非常小的开销下显著改善了开放词汇的目标检测方法。
- VLMo:混合模态专家的统一视觉语言预训练
本研究提出了统一的视觉 - 语言预训练模型 (VLMo),通过模块化的 Transformer 网络共同学习双编码器和融合编码器。实验结果表明,VLMo 在各种视觉 - 语言任务中取得了最先进的结果。