AAAIDec, 2018

从 FiLM 到视频:多模态背景下的多轮问答

TL;DR通过 AVSD 挑战,本文提出了一种层次化编码 - 解码模型来回答有关视频的问题,采用预训练的 I3D 和 VGGish 模型计算视频及音频帧的语义特征,并使用 FiLM 块进行条件编码以降低维数,最终使用 LSTM 解码器通过计划采样进行训练和束搜索进行评估,相比于 AVSD 挑战组织者发布的模态融合基准模型,我们的模型实现了超过 16%的相对改善,得分为 0.36 BLEU -4,超过 33%的得分为 0.997 CIDEr。