Oct, 2022

适用于视觉和语言任务的视觉编码器互补性研究

TL;DR本研究利用三个常用的视觉编码器对六种下游视觉语言任务进行了详细实验,并对注意力机制和编码器 - dropout 模式进行了分析,结果显示不同的视觉编码器互补,可以提高下游视觉语言任务的性能而不是简单的合成效果,且未来的视觉编码器有望提高目标视觉语言任务的性能。