ACLApr, 2022

多模态方面情感分析的视觉语言预训练

TL;DR本文提出了一种面向多模态方面的情感分析的 Vision-Language 预训练框架(VLPMABSA),使用更加统一的多模态编码器 - 解码器体系结构来应对上一个视觉和文本模型分开预训练、或是总体预训练任务不够细致的问题,同时还设计了三种特定于该任务的语言、视觉和多模态预训练任务,并通过实验证明了本文方法在三个 MABSA 子任务上优于当前最先进方法的效果,且有助于情感、方面和跨模态的细粒度对齐。