Sep, 2021

基于交叉修改的注意力推理模型用于图像字幕生成

TL;DR本研究提出了一种基于交叉修改注意力的两次解码框架,用于图像描述生成任务。 通过在Deliberation Model中集成CMA模块,可以过滤掉从Drafting Model获取的错误信息并增强图像特征的语义表达能力,从而提高了生成文本描述的质量。 在MS COCO数据集上进行的实验表明,我们的方法相较于现有的单次解码和其他基于两次解码的方法,有显著的性能提升。