Apr, 2022

PyramidCLIP:视觉语言模型预训练的分层特征对齐

TL;DRPyramidCLIP 通过分层语义对齐和数据集扩充可以提高图像与文本匹配任务中的性能,并在不同的数据集上取得了极具竞争力的结果。