AAAINov, 2022

不确定性感知的图像字幕生成

TL;DR本文提出了一种基于不确定性的图片字幕生成框架,通过并行迭代地从易到难插入不连续的候选单词,将高不确定性的单词在较晚阶段生成,以生成更直观、可解释的字幕。在训练中,作者利用一种基于图像的词袋模型来衡量单词的不确定性,并运用动态规划算法构建训练对。在推理中,作者提出了一种不确定性自适应的并行波束搜索技术,显著提高了推断速度和字幕生成的质量。