EMNLPAug, 2018

学习描述一对相似图片之间的差异

TL;DR本文介绍了一项任务,即自动生成文本来描述两个相似图像之间的差异。我们通过众包获取了一组新的数据集,并提出了一种模型,该模型使用隐变量来根据像素聚类将不同的像素与输出句子对齐,以捕捉视觉显著性并实现语言和视觉的对准。