Apr, 2024

ViTextVQA:用于评估图像中越南文本理解的大规模视觉问答数据集

TL;DR通过对 OCR 文本中令牌的处理和选择顺序的细致实验,我们发现这一发现显著提高了在 ViTextVQA 数据集上基准模型的性能。