ICCVMar, 2021

视频问答中对话的隐藏宝藏

TL;DR该研究提出了一种新方法,通过将对话汇总成文本描述的方式,摆脱人工制作的来源,以理解整个故事,从而使得视频问答系统在不使用特定问题的人类注释或人工情节概述的情况下在 KnowIT VQA 数据集上明显胜过现有技术,并且甚至胜过从未观看过整个剧集的人类评估者。