EMNLPApr, 2019

整合文字和图像:在 Instagram 帖子中确定多模态文档意图

TL;DR通过模型化文本和图像之间的复杂关系,可以计算出像 Instagram 帖子中的作者意图。本文介绍了一个包含 1299 个 Instagram 帖子的多模态数据集,以确定帖子图像标题对之间的意图、上下文关系和符号关系。同时,构建了一个多模态分类器,通过同时使用文本和图像,相较于只使用图像模态,将意图检测的准确性提高了 9.6%。这些结果表明,非相交意义乘法在计算作者意图时具有普遍性。该数据集为研究文本和图像组合产生的丰富含义提供了新的资源。