Jan, 2023
语言理解通用多模态表示
Universal Multimodal Representation for Language Understanding
Zhuosheng Zhang, Kehai Chen, Rui Wang, Masao Utiyama, Eiichiro Sumita...
TL;DR本文提出了一种新方法来将视觉信息作为协助信号用于 NLP 任务,使用 Transformer 编码器和卷积神经网络来对文本和图像进行编码,通过注意力层将两种模态的表征进行融合,实验结果表明,该方法在不同的任务和语言中都具有很好的效果。