Dec, 2020

跨领域理解引导式图像字幕性能

TL;DR本文提出了一种使用指导文本来控制图像标题关注点的方法,使用基于 Transformer 的多模态编码器来生成标题,通过使用引导文本和全球和物体级别图像特征生成早期融合表示来生成标题,指导标题模型可较好地泛化用于外部领域的图像和指导文本,提高模型性能的关键因素是增加样式的多样性。