Apr, 2024

通过预测分配来建立视觉和语言空间的桥梁

TL;DR该论文介绍了VLAP(pretrained vision models和large language models之间的视觉理解的桥梁),通过一种新颖的方法,将预训练的视觉模型的嵌入空间转化为大规模语言模型的词嵌入空间,从而有效且通用地实现视觉和语言的理解。