Mar, 2024

引入路由功能以低秩瓶颈优化视觉语言参数高效微调

TL;DR针对视觉-语言(VL)任务的参数高效微调方法,使用名为路由函数的操作在低秩瓶颈中增强了VL对齐,极大地改善了原始PEFT方法在各种VL PEFT设置中的表现,包括20%的提升(在VQAv2上)和30%的提升(在COCO Captioning上),同时也在多种VL PEFT任务中对预训练的多模态模型(如CLIP-BART)进行微调时观察到了较小但一致的改进。