Dec, 2020

言之有据:基于视觉语境的话语表达

TL;DR该研究关注如何将视觉内容整合到对话 AI 系统中,提出了一种基于视觉上下文的任务,利用在线教育视频数据集自动训练一个多模态视觉 - 语音预测模型,能够优于基于文本输入的基准模型,并在多个 VideoQA 基准测试中获得最先进的表现.