ACLMay, 2023

ManagerTower:聚合单模态专家的洞见,用于视觉语言表示学习

TL;DR介绍 ManagerTower—— 一种有效利用预训练的 uni-modal 专家在不同层次上聚合语义信息来提升跨模态交互的视觉语言模型,在多项 VL 任务中取得了优秀表现。