Feb, 2020

在基于图像场景环境的语义空间中融合视觉语义到句子表示中

TL;DR本文目的在于通过学习一种中间的 representation space 将视觉信息转移到文本表示中,以解决由于一个视觉场景可以有多种描述方式所导致的文字表示和学习中的问题,作者还提出了两个新的目标,来保证相关元素之间的相似性跨领域地保持和提高分类和语义相关性任务的性能。