Sep, 2021

学习为视觉对话建立视觉对象的联系

TL;DR提出一种新方法,通过先验分布和后验分布基于上下文理解来实现视觉对象的定位,从而提高视觉对话模型在生成和区分性任务中的表现,并在VisDial v0.9和v1.0数据集上进行了实验验证。