CVPRNov, 2016

视觉对话

TL;DR本文介绍了视觉对话任务,即通过图像、对话历史和问题,要求 AI 智能体以自然、对话式的语言与人类进行有意义的对话,并率先提出了一种基于视觉的通用测试方法以及一种新颖的二人聊天数据收集协议。在此基础上,利用 Latre Fusion、Hierarchical Recurrent Encoder 和 Memory Network 等三个编码器和两个解码器(生成式和判别式),超越了许多复杂的基准线,并采用了基于检索的评估协议,Quantify 了机器和人类在视觉对话任务上的性能差距,进而演示了第一款 “视觉聊天机器人”。