AAAIDec, 2023

视觉问答中的物体属性重要性

TL;DR提出了一种基于物体属性利用的视觉问答方法,旨在实现更好的物体级视觉 - 语言对齐和多模态场景理解。通过属性融合模块和对比知识蒸馏模块,构建多模态图神经网络,融合属性和视觉特征,改善细粒度问题的解决和多模态场景的理解,从而提高模型的鲁棒性。通过对六个数据集的密集实验,COCO-QA、VQAv2、VQA-CPv2、VQA-CPv1、VQAvs 和 TDIUC,验证了该方法的优越性。