基于反应式多阶段特征融合的多模态对话建模

Aug, 2019

基于反应式多阶段特征融合的多模态对话建模

Reactive Multi-Stage Feature Fusion for Multimodal Dialogue Modeling

Yi-Ting Yeh, Tzu-Chuan Lin, Hsiao-Hua Cheng, Yu-Hsuan Deng, Shang-Yu Su...

TL;DR本文提出了一种直观的机制，通过多个阶段融合特征和注意力以很好地集成多模式特征，以解决音频视觉场景感知对话任务，并进一步分析了各种最先进的模型在该任务上的泛化能力。

Abstract

visual question answering and visual dialogue tasks have been increasingly studied in the multimodal field towards more practical real-world scenarios. A more challenging task, →