ICCVNov, 2020

通过诱导符号空间进行可解释的视觉推理

TL;DR该研究旨在通过目标 - 中心的组合式注意力模型(OCCAM)和符号概念空间,从与图像相关的问题 - 答案对中识别概念和它们的分层关系,并实现一个可解释的模型。该模型通过设计新的 OCCAM 框架执行视觉推理任务,并提出一种方法,从对象的视觉特征和问题词之间的注意力模式中使用线索,诱导对象和关系的概念。结果表明,OCCAM 在无需人类注释的功能程序的情况下取得了最新的技术水平,并且所诱导的概念精确而充足,在视觉特征或在引入的符号概念空间中表示的对象上都能够取得相当的性能。