COLINGNov, 2022

基于预训练嵌入的多语言和多模态主题建模

TL;DR本文介绍了一种新颖的多模态多语言(M3L)神经话题模型 M3L-Contrast,用于可比较数据,将多种语言和图像映射到共享的话题空间中,该模型利用预训练的文本和图像嵌入,抽象不同语言和模态之间的复杂性,并产生对齐的语言特定话题。同时,该模型还可以推断图像中语义概念的文本表示。我们证明了我们的模型在预测可比较的多语言数据的话题分布方面与零 - shot 模型相当,且在预测可比较的文本和图像的话题分布方面比零 - shot 模型表现更好。同时,我们还展示了我们的模型在未对齐嵌入上的表现几乎与在对齐嵌入上的表现一样好。