Apr, 2024
ViTextVQA:用于评估图像中越南文本理解的大规模视觉问答数据集
ViTextVQA: A Large-Scale Visual Question Answering Dataset for Evaluating Vietnamese Text Comprehension in Images
Quan Van Nguyen, Dan Quang Tran, Huy Quang Pham, Thang Kien-Bao Nguyen, Nghia Hieu Nguyen...
TL;DR通过对 OCR 文本中令牌的处理和选择顺序的细致实验,我们发现这一发现显著提高了在 ViTextVQA 数据集上基准模型的性能。