DSTC8 AVSD挑战赛的多模态指针网络Transformer

Feb, 2020

Multimodal Transformer with Pointer Network for the DSTC8 AVSD Challenge

Hung Le, Nancy F. Chen

TL;DR使用点积注意力结合文本和非文本特征的输入视频信息以及采用多源序列的指针网络来增强生成对话代理能力，从而在自动度量中取得高性能，在人类评估中获得第五和第六名。

Abstract

audio-visual scene-aware dialog (AVSD) is an extension from video question answering (QA) whereby the dialogue agent is required to genera