Dec, 2022

无图像的自然语言处理任务的视觉增强预训练语言模型

TL;DR本文提出了一种新的视觉增强微调方法,名为VAWI,该方法能够将视觉语义注入到不同PLMs或自然语言处理任务中,通过使用视觉饥饿字词的固定CLIP文本编码器来产生视觉增强表示,引入了视觉语义,实验结果表明该方法能够改善BERT、RoBERTa、BART和T5的性能,并显著优于其他竞争基线。