Jan, 2024

基于文本相关图像修补选择的高效视觉与语言预训练

TL;DRTRIPS 是一种高效的 VLP 方法,通过在视觉主干中引入一个文本导向的补丁选择层,以渐进的方式减少视觉序列,从而加速训练和推理过程,并通过动态计算文本相关的视觉注意力来识别注意力图像令牌,以无缝融合不注意的令牌。TRIPS 不添加额外参数且适用于大多数基于 ViT 的 VLP 模型。将 TRIPS 整合到三种代表性的 VLP 模型中,并在五个广泛使用的多模式基准数据集上进行了详尽的实验研究。实验结果表明,TRIPS 能够提供 40% 的加速效果,同时在下游任务上保持有竞争力或更好的性能。