May, 2023

KAFA: 基于知识增强特征自适应的视觉语言模型重构图像广告理解

TL;DR本文通过使用预训练的VLM(基础视觉语言模型)进行第一次实证研究图片广告的理解。在此过程中,我们发现了适应这些VLM到图像广告理解中的实际挑战,并提出了一种简单的特征适应策略来有效融合图像广告的多模态信息,并进一步强化其对真实世界实体的知识。希望我们的研究能引起更多人对与广告行业广泛相关的图片广告理解的关注。