Oct, 2020

MAF:用于弱监督短语定位的多模态对齐框架

TL;DR本文提出了一种多模态对齐框架(MAF)来解决注释短语对目标的数据集收集难的问题,通过细粒度视觉表示和视觉感知语言表示模型研究了短语 - 目标相关性,使用对比学习等弱监督学习方法,实现了在 Flickr30k 数据集上对弱监督方法的显著性改进,并在视觉感知语言表示的帮助下,将无监督结果的精度提升了 5.56%。