ACLMay, 2023
ManagerTower:聚合单模态专家的洞见,用于视觉语言表示学习
ManagerTower: Aggregating the Insights of Uni-Modal Experts for Vision-Language Representation Learning
Xiao Xu, Bei Li, Chenfei Wu, Shao-Yen Tseng, Anahita Bhiwandiwalla...
TL;DR介绍 ManagerTower—— 一种有效利用预训练的 uni-modal 专家在不同层次上聚合语义信息来提升跨模态交互的视觉语言模型,在多项 VL 任务中取得了优秀表现。