IJCAIJul, 2020

学习离散组合推理模块网络,用于视频字幕

TL;DR本文提出了一种名为推理模块网络 (RMN) 的视觉推理方法,旨在为现有的编码器 - 解码器框架提供视频字幕生成的推理能力,RMN 包括三个复杂的时空推理模块和一个由 Gumbel 估算法训练的动态和离散模块选择器,并且在 MSVD 和 MSR-VTT 数据集上的广泛实验表明,所提出的 RMN 方法优于现有的方法,同时提供了一个明确和可解释的生成过程。