Jun, 2024

基于问题分解的知识驱动和视觉推理解耦的知识图谱可视问答

TL;DR我们研究了基于知识的视觉问答问题,通过将复杂问题替换为多个简单问题,从图像中提取更相关的信息来增强对图像的理解,并在三个著名的视觉问答数据集中实现了高达2%的准确率提升。