Mar, 2023

计算机视觉中自回归解码器的多任务研究

TL;DR本研究着重探讨了多模式计算机视觉的自回归解码器,包括分类、字幕、视觉问答和光学字符识别等任务,通过广泛的系统性实验,我们研究了多任务和数据混合、训练和正则化超参数、调节类型和特异性、模态组合等因素的影响,并与良好调整的单任务基线进行了比较。重要的是,我们发现锁定图像调整 (LiT-decoder) 的小型解码器表现出色,并通过与预先训练的预训练编码器交互教授解码器自然语言。