ECCVFeb, 2020

视觉对话的猜测状态跟踪

TL;DR本文提出了一种猜测状态跟踪的猜测模型,用于 GuessWhat?!任务中的视觉定位和对话,以改善现有的猜测器,如 Guesser 的精度,实验结果显示,该模型在现有模型中表现最佳,猜测成功率达到 83.3%,接近人类的 84.4%。