ECCVAug, 2020

通过多模态合作对话代理描述未见过的视频

TL;DR该研究介绍了一个名为视频描述的新任务,其中两个多模态合作对话代理的终极目标是一个会话代理基于对话和两个静态帧来描述未见过的视频,为了帮助一个代理更好地描述视频,提出了一个具有动态对话历史更新学习机制的 QA - 合作网络来从一个已经看过整个视频的代理 - A-BOT 转移知识到 - Q-BOT。