Dec, 2022

无图像的自然语言处理任务的视觉增强预训练语言模型

TL;DR本文提出了一种新的视觉增强微调方法,名为 VAWI, 该方法能够将视觉语义注入到不同 PLMs 或自然语言处理任务中,通过使用视觉饥饿字词的固定 CLIP 文本编码器来产生视觉增强表示,引入了视觉语义,实验结果表明该方法能够改善 BERT、RoBERTa、BART 和 T5 的性能,并显著优于其他竞争基线。