Nov, 2020

iPerceive: 将常识推理应用于多模态密集视频字幕和视频问答

TL;DR提出利用上下文线索构建常识知识库推断视频中物体间因果关系的 iPerceive 框架,其中包括机器翻译问题,使用多种模态,如视听和语音等。测试集的结果显示,我们的方法提高了 DVC 和 VideoQA 的性能。