Oct, 2023

Jaeger:一种基于串联的多 Transformer VQA 模型

TL;DR本文介绍了 Jaegar,一种基于连接的多转换器 VQA 模型,用于解决基于文档的视觉问答中的挑战。该模型利用 RoBERTa large 和 GPT2-xl 作为特征提取器,并通过将两个模型的输出进行连接来加强其表示能力,以减少计算复杂性和推理时间。实证结果表明,该模型在 PDF-VQA 数据集的 C 任务上具有竞争力的性能。