attention-based neural encoder-decoder frameworks have been widely used for
image captioning. Many of these frameworks deploy their full focus on
generating the caption from scratch by relying solely on the image
本研究提出了一种基于交叉修改注意力的两次解码框架,用于图像描述生成任务。 通过在 Deliberation Model 中集成 CMA 模块,可以过滤掉从 Drafting Model 获取的错误信息并增强图像特征的语义表达能力,从而提高了生成文本描述的质量。 在 MS COCO 数据集上进行的实验表明,我们的方法相较于现有的单次解码和其他基于两次解码的方法,有显著的性能提升。