MMSep, 2021

MARMOT:一个用于构建视觉 - 语言任务的多模态表征的深度学习框架

TL;DR本篇论文提出一种名为 MARMOT 的多模态视觉语言框架,该框架依靠模态转换构造了观测缺少图像或文本的表征,并在具有选举事件的推文多标签分类方面,在 19 个分类中优于仅使用文本的分类器。