Dec, 2018

可解释的视听视频字幕生成尝试

TL;DR本论文介绍了一个多模态卷积神经网络视频字幕框架,通过引入模态感知模块,探索了视听交互对视频理解的影响,并证明该可解释模型在情况选择时取得了可比较的性能。