CVPROct, 2022

多模态不确定性感知视觉 - 语言预训练模型

TL;DR本文通过概率分布编码器(PDE)将所有模态的表示作为概率分布映射,对不确定性建模,提出了基于概率分布的预训练任务并在视觉和语言联合任务上实现了最先进的结果。