Apr, 2024

TextSquare:文本为中心的视觉指令调优的扩展

TL;DRTextSquare 通过使用 Square-10M 数据集,远远超过开源模型,提出了对文本中心的 MLLMs 进行调参的新方法,并在 OCR 评估中达到了新的标准 (62.2%),同时在 6 个文本中心基准测试中胜过 GPT4V 和 Gemini 模型。此外,研究还展示了 VQA 推理数据在提供全面上下文洞察力方面的关键作用,并提高了准确性,显著减轻了幻觉。最后,研究揭示了文本中心 VQA 数据集规模的指数级增长与模型性能改善之间的关系,验证了数据集规模和 Square-10M 的高质量的必要性。