ACLApr, 2018

使用基于字符级别推理的实用信息化图像字幕生成

TL;DR本文提出了一种将神经图像字幕生成器与 Rational Speech Acts(RSA)模型相结合的系统,其核心目标是生成不仅真实而且能够将其输入与类似图像区分开的字幕。通过在字幕展开期间实现一种基于字符(“a”,“b”,“c”…)的 RSA 版本来解决以前的计算效率问题,同时提出了一种自动测试质询演讲者模型性能的方法,并表明我们的模型优于非语用基线,以及单词级 RSA 字幕生成器。