Aug, 2017

利用多模态潜在主题进行视频字幕生成

TL;DR该论文提出了一种基于 M&M TGM 的统一字幕生成框架,它利用从数据中无监督挖掘的多模态话题,并通过话题引导字幕解码器,通过并行任务主题预测来提高学习效果。该模型通过对 MSR-VTT 和 Youtube2Text 数据集进行广泛实验,证明了其在视频字幕生成方面的有效性,同时还具有更好的泛化能力。