BriefGPT.xyz
Jan, 2019
视听场景感知对话
Audio-Visual Scene-Aware Dialog
HTML
PDF
Huda Alamri, Vincent Cartillier, Abhishek Das, Jue Wang, Stefan Lee...
TL;DR
本论文介绍了场景感知对话任务,通过视频和音频研究场景,并在对话历史中利用上下文线索,以回答关于场景的问题;同时提出了AVSD数据集,并通过多项定量和定性指标评估了基础模型的表现,结果表明模型必须充分利用所有可用输入(视频、音频、问题和对话历史)才能在该数据集上取得最佳表现。
Abstract
We introduce the task of
scene-aware dialog
. Given a follow-up question in an ongoing dialog about a
video
, our goal is to generate a complete and natural response to a question given (a) an input
→