Jul, 2024

通过变换器和卷积集成推进越南视觉问答研究

TL;DR本研究针对越南视觉问答系统的缺乏问题,通过在越南视觉问答(ViVQA)数据集上进行全面实验,提出了一种新的模型。该模型结合了语言-图像预训练与卷积神经网络,有效提升了图像表示能力,显著提高了VQA系统的整体性能,并在ViVQA测试集上实现了71.04%的准确率,标志着这一领域的重要进展。