Mar, 2023

将图像特征与卷积序列到序列网络相结合,用于多语言视觉问答

TL;DR本研究利用已预训练的最新VQA模型和卷积序列到序列网络整合图像特征,作为VLSP2022-EVJVQA多语言场景下,视觉问答任务的解决方案,在公共测试集上达到了F1分数0.3442,在私人测试集上达到了0.4210,排名第三。