May, 2023

ReSee:在开放域对话中通过视觉信息响应和传递细粒度视觉知识

TL;DR本文提出了一种将视觉知识集成入基于文本的对话系统的方法,通过对视觉知识进行细分并从互联网或大型图像数据集中检索增强的视觉信息,实现了两个数据集(ReSee-WoW、ReSee-DD)的构建,并在所构建的对话模型(ReSee)上进行了大量的实验和消融,结果表明该模型在自动和人工评估上均优于现有的几种最先进的方法。