EMNLPSep, 2021

使用文本和图像进行兴趣点类型预测

TL;DR本文提出一种方法,利用文本和图像的多模态信息进行 POI 类型(地点类型)预测,该方法从文本和图像中提取相关信息,有效捕捉文本和图像之间的交互,实现了 47.21 的宏 F1 表现,且在八个类别方面显著优于基于纯文本方法的 POI 类型预测最先进方法。最后,我们对跨模态交互和我们最佳性能模型的局限性进行了详细的分析。