May, 2022

HiVLP: 面向快速图像-文本检索的分层视觉语言预训练

TL;DR本文提出了一种用于快速图像-文本检索的Hierarchical Vision-Language Pre-Training(HiVLP)方法,具有快速推理速度和可扩展性,并能够在大规模检索场景下进行优化表现,在Flickr30k和COCO数据集上展示了+4.9AR和+3.8AR的性能优势。