ACLJul, 2019

用于端到端视频对话系统的多模态 Transformer 网络

TL;DR本研究提出了一种使用多模态转换网络(MTN)来编码和整合不同模态信息的视频对话系统。在对话生成过程中,我们提出了一个训练程序来模拟标记级解码,从而提高了生成响应的质量。我们在 DSTC7 上获得了最优秀的表现,并且我们的模型具有很好的泛化性能。