Aug, 2022

VAuLT: 增强视觉与语言 Transformer 用于社交媒体情感分类

TL;DR本研究提出了 Vision-and-Augmented-Language Transformer(VAuLT),以传播大型语言模型(LM)BERT 的输出表示到 ViLT 的语言输入为核心思想,VAuLT 在包括富语言输入和情感结构在内的视听任务中相对于 ViLT 获得了高达 20% 的性能提升,并在 TWITTER-2015,TWITTER-2017,MVSA-Single 和 MVSA-Multiple 的情感分类任务中取得了与现有技术相媲美的表现。