Jun, 2024

精确赋能,过度分散:动态注入语言模型中的视觉问答知识

TL;DR通过提供来自知识图谱中提取的相关外部知识,我们通过增强问题并实现可变数量的三元组,为知识增强的视觉问答模型带来了平均4.75%的准确匹配得分提升,并展示了其在推理能力和泛化能力方面的优势。