MMAug, 2023

目录短语引导(CPG):用于电子商务视觉语言应用中将产品文本属性与产品图像关联

TL;DR我们提出了 Catalog Phrase Grounding (CPG) 模型,能够将产品的文本数据(标题、品牌)关联到相应的产品图像区域(孤立的产品区域、品牌标志区域),用于电子商务视觉语言应用。我们使用最先进的调制多模态 Transformer 编码器 - 解码器架构,统一了物体检测和短语关联。通过从电子商务网站合成的 230 万个图像文本对进行自监督训练。自监督数据使用由一些教师模型(例如,预训练的通用领域短语关联模型和专门的标志检测模型)生成的高置信度伪标签进行注释。这使得 CPG 作为学生模型可以从这些基础模型的转移知识中受益,结合了通用领域知识和专业知识。除了立即的目录短语关联任务之外,我们将 CPG 表示引入到需要深度语义理解产品的下游目录应用中作为机器学习特征,从中受益。我们在一个具有挑战性的电子商务应用(产品 - 品牌匹配)上的实验表明,将 CPG 表示引入到现有的生产集成系统中,在固定的 95% 精度下,全球性能平均提升 5%的召回率(在一个单一的国家中提升 11%),超越了其他可选方案,包括标志检测教师模型和 ResNet50。