Feb, 2024

自动创造性选择与跨模态匹配

TL;DR通过微调预训练的 LXMERT 模型,我们提出了一种新颖的方法将应用程序图像与搜索词进行匹配,相对于 CLIP 模型和基于 Transformer 模型用于搜索词和 ResNet 模型用于图像的基准线,我们显著提高了匹配准确性。在两组标签上评估我们的方法:给定应用程序的广告主关联(图像,搜索词)对和人类对于(图像,搜索词)对的相关性。对于广告主关联的事实,我们的方法达到 0.96 的 AUC 分数,相对于基于 Transformer+ResNet 的基准线和微调 CLIP 模型提高了 8% 和 14%。对于人工标记的事实,我们的方法达到 0.95 的 AUC 分数,相对于基于 Transformer+ResNet 的基准线和微调 CLIP 模型提高了 16% 和 17%。