Apr, 2024

ViTextVQA:用于评估图像中越南文本理解的大规模视觉问答数据集

TL;DR通过对OCR文本中令牌的处理和选择顺序的细致实验,我们发现这一发现显著提高了在ViTextVQA数据集上基准模型的性能。