ICCVDec, 2018

为视觉锚定学习组装神经模块树网络

TL;DR提出了一种基于依赖解析树的神经模块树网络(NMTree),该网络通过规范化视觉构图,并根据其语言特征计算视觉注意而分解视觉构图,从而实现可解释的组合视觉推理,并且使用 Gumbel-Softmax 逼近进行端对端训练,可以应对解析错误的影响。