May, 2022

HiVLP: 面向快速图像 - 文本检索的分层视觉语言预训练

TL;DR本文提出了一种用于快速图像 - 文本检索的 Hierarchical Vision-Language Pre-Training(HiVLP)方法,具有快速推理速度和可扩展性,并能够在大规模检索场景下进行优化表现,在 Flickr30k 和 COCO 数据集上展示了 + 4.9AR 和 + 3.8AR 的性能优势。