CVPRDec, 2018

场景图上的可解释和显式视觉推理

TL;DR通过使用场景图作为归纳偏差,我们设计了一种简洁灵活的可解释和显式神经模块(XNMs),并且能够显式追踪图形注意力的推理流程。当使用完美检测的场景图时, XNMs 能够在 CLEVR 和 CLEVR CoGenT 上实现 100%的准确率,当嘈杂地检测真实世界图像时,XNMs 仍然能够达到竞争性 67.5%的 VQAv2.0 准确度,超越了流行的无结构模型。