Jan, 2023

语言理解通用多模态表示

TL;DR本文提出了一种新方法来将视觉信息作为协助信号用于 NLP 任务,使用 Transformer 编码器和卷积神经网络来对文本和图像进行编码,通过注意力层将两种模态的表征进行融合,实验结果表明,该方法在不同的任务和语言中都具有很好的效果。