BriefGPT.xyz
Ask
alpha
关键词
open-ended cross-modal scene understanding
搜索结果 - 1
CVPR
MuKEA: 基于多模态知识提取和累积的基于知识的视觉问答
本研究提出了一种用于视觉问答的多模态知识表示方法 (MuKEA),通过明确的三元组来关联视觉对象和事实答案,从而构建视觉相关和可解释的多模态知识,该方法可以有效提高对知识的需求的数据集上的表现。
PDF
2 years ago
Prev
Next