Jan, 2023

WSDM2023 Toloka VQA 挑战赛的冠军解决方案

TL;DR本文介绍了我们在WSDM2023 Toloka视觉问答(VQA)挑战赛中的冠军解决方案。利用ViT-Adapter和Uni-Perceiver进行跨模态本地化,成功地实现了通过给定的疑问句推理和定位隐含指定的物品。我们的方法在公共和私人测试集上均名列榜首,实现了77.5和76.347 IoU的成绩。