Jun, 2023

视觉语言预训练的全局和局部语义补全学习

TL;DR本文提出了一种 GLSCL 任务,旨在促进全局 - 局部对齐和局部 - 局部对齐,该任务包括 MGSC 和 MLTC,可通过跨模式交互补充掩码数据的缺失语义并恢复全局和局部特征,实验结果显示,该方法在多种视觉语言基准测试中获得了最先进的性能。