Aug, 2022

细粒度语义对齐视觉 - 语言预训练

TL;DRLOUPE 是一个 fine-grained semantically aligned vision-language pre-training framework,通过博弈论交互的新视角学习到精细的语义对齐,并进一步提出了一个基于 Uncertainty-Aware Shapley interaction 的神经网络模块来高效地计算博弈论交互。实验表明, LOUPE 在各种视觉 - 语言任务上均达到了最先进的性能。此外, LOUPE 实现了无需任何对象级人员注释和微调的目标检测和视觉定位的竞争性能,同时也开启了一个新的方向,即从大规模原始图像文本数据中学习精细语义。