Feb, 2022

I-Tuning: 利用图像微调冻结语言模型轻量级图像字幕

TL;DR本文介绍了一种轻量级图像字幕生成框架(I-Tuning),该框架包含较少的可训练参数,并设计了一种新颖的I-Tuning交叉注意力模块,用于连接预先训练的语言解码器GPT2和视觉编码器CLIP-ViT。实验结果表明,该框架与大规模基线系统具有可比或更好的性能,但我们的模型可训练参数少至10倍并且需要更少的训练数据。