May, 2024

视觉语言预训练的精简与有效的跨模态检索

TL;DR基于大规模预训练模型的学习哈希方法为跨模态检索提供了性能优化,并引入了一种名为 DCMQ 的新方法,利用 VLP 模型的语义知识改进了哈希表示学习,通过引入 PQG 量化方法和 NPC 转换进一步提高了检索性能。