May, 2023

LANISTR:来自结构化和非结构化数据的多模态学习

TL;DRLANISTR 是一种基于注意力机制的框架,能够学习语言、图像和结构化数据,并通过一种基于相似度的多模态掩蔽损失函数来学习大规模多模态数据中跨模态的关系。在两个具有挑战性的公开数据集 MIMIC-IV 和 Amazon 产品评论上,与现有的多模态模型相比,LANISTR 的绝对改进分别为 6.47%(AUROC)和高达 17.69%(准确性),同时显示出更出色的泛化能力。