Jul, 2024

基于知识的视觉问答中的知识获取解耦

TL;DR本研究解决了当前知识型视觉问答方法在复杂问题下知识获取混乱的问题。提出的DKA框架通过解耦知识获取并利用大语言模型的反馈精准指定所需知识,从而提高回答质量。实验表明,DKA在多个基准数据集上显著优于现有最先进的模型。