Jul, 2022

LaKo: 基于知识驱动的视觉问答,通过后期知识注入到文本中

TL;DR本文提出了一种知识驱动的视觉问题回答方法,通过后期注入机制将知识图谱中的三元组转化为文本格式,采用有效的编码器 - 解码器模型以将 VQA 任务视为文本生成任务,取得了 OKVQA 数据集上的最佳效果。