ICLRApr, 2024

通过预测分配来建立视觉和语言空间的桥梁

TL;DR该论文介绍了 VLAP(pretrained vision models 和 large language models 之间的视觉理解的桥梁),通过一种新颖的方法,将预训练的视觉模型的嵌入空间转化为大规模语言模型的词嵌入空间,从而有效且通用地实现视觉和语言的理解。