Jul, 2020

DAM: 在视觉对话中生成详细且不重复回复的思考、放弃和记忆网络

TL;DR本文提出了一种新的生成解码结构,其中单词的生成被分解成一系列基于注意力的信息选择步骤。利用 Deliberation、Abandon 和 Memory 模块来进行适应性选择,结合了编码器捕获的响应级语义和为生成每个单词专门选择的单词级语义。该结构在可维持语义准确性的同时,生成的响应更加详细和非重复,并且相对于编码器是灵活的。将 Deliberation、Abandon 和 Memory 模块应用到三个典型的编码器,并在 VisDial v1.0 数据集上验证了性能,实验结果表明,所提出的模型取得了高质量响应的新的最优性能。