AAAINov, 2022
使用单塔 Transformer 统一视觉与语言表示空间
Unifying Vision-Language Representation Space with Single-tower Transformer
Jiho Jang, Chaerin Kong, Donghyeon Jeon, Seonhoon Kim, Nojun Kwak
TL;DR本文提出了一种新的多模态表示学习框架 OneR,该框架可以将图像和标题简单地视为底层相互信息的两种不同视角,并统一地编码两种模态。通过对其进行全面评估,结果表明该框架具有潜在的高效性。