Feb, 2020

文本和视频的桥梁: 用于视频音频场景感知对话的通用多模态Transformer

TL;DR该研究提出了一种通用的多模态转换器,并引入了多任务学习的方法,以解决视频聊天中的音视频场景感知对话生成任务,并将自然语言生成预训练模型扩展到多模态对话生成任务。我们的系统在该挑战中取得了最佳表现。