May, 2024

探索大型多模型模型对于密集文本的能力

TL;DR本研究通过在 DT-VQA 数据集上对 GPT4V、Gemini 和不同的开源 LMM 进行全面评估,揭示了它们的优点和缺点,并评估了 LMM 的两种策略:prompt engineering 和 downstream fine-tuning。研究发现,即使使用自动标记的训练数据集,模型性能也能显著提高,希望本研究能促进 LMM 在密集文本任务中的研究。