Nov, 2023

多问题多答案文本视觉问答

TL;DR通过多问多答(MQMA)方法,在编码 - 解码变压器模型中进行文本 - VQA(Visual Question Answering)。通过多次将不同问题和内容输入到模型中进行预测,实现对同一图像的多问题回答预测。提出几个新颖的架构修改来支持 MQMA,并且通过 MQMA 去噪的预训练任务,使模型能够对多个问题以及相关答案进行对齐和划分。在多个文本 - VQA 数据集上,MQMA 预训练模型实现了与先前最先进方法相比的明显改进(OCR-VQA:+2.5%,TextVQA:+1.4%,ST-VQA:+0.6%,DocVQA:+1.1%)。