Aug, 2023
ViLTA:通过文本增强增强视觉语言预训练
ViLTA: Enhancing Vision-Language Pre-training through Textual
Augmentation
TL;DR本文提出了一种名为ViLTA的新方法,由两个组件组成,旨在进一步促进模型在图像和文本对之间学习细粒度表示,采用交叉蒸馏方法生成软标签以提高模型的稳健性,并利用上下文合成硬负样本来增加图像-文本匹配的难度,从而在各种视觉语言任务上取得更好的性能。大量的基准数据集实验证明了ViLTA的有效性和其在视觉语言预训练中的潜力。