May, 2022
HiVLP: 面向快速图像-文本检索的分层视觉语言预训练
HiVLP: Hierarchical Vision-Language Pre-Training for Fast Image-Text
Retrieval
TL;DR本文提出了一种用于快速图像-文本检索的Hierarchical Vision-Language Pre-Training(HiVLP)方法,具有快速推理速度和可扩展性,并能够在大规模检索场景下进行优化表现,在Flickr30k和COCO数据集上展示了+4.9AR和+3.8AR的性能优势。