Mar, 2023

将图像特征与卷积序列到序列网络相结合,用于多语言视觉问答

TL;DR本研究利用已预训练的最新 VQA 模型和卷积序列到序列网络整合图像特征,作为 VLSP2022-EVJVQA 多语言场景下,视觉问答任务的解决方案,在公共测试集上达到了 F1 分数 0.3442,在私人测试集上达到了 0.4210,排名第三。