BriefGPT.xyz
Ask
alpha
关键词
dual-stream
搜索结果 - 2
ACL
通过视觉语言知识蒸馏实现在 CLIP 上的多模态生成
通过视觉 - 语言知识蒸馏 (VLKD) 增强双流 VLP 模型,使其具有多模态生成能力,实现开放式视觉问答和图像字幕等多模态生成任务的强零 - shot 性能。
PDF
2 years ago
EMNLP
视觉扩展对视觉语言模型中自然语言理解的影响
本研究提出采用基于结构扩展和预训练技术的方法来创建一个视觉语言模型,通过评估 GLUE 基准测试,比较单流和双流模型的表现,结果表明,单流结构在保持语言知识方面比双流更有效。
PDF
3 years ago
Prev
Next