AAAINov, 2022

使用单塔 Transformer 统一视觉与语言表示空间

TL;DR本文提出了一种新的多模态表示学习框架 OneR,该框架可以将图像和标题简单地视为底层相互信息的两种不同视角,并统一地编码两种模态。通过对其进行全面评估,结果表明该框架具有潜在的高效性。