AAAIDec, 2020

文本多模态变压器自信心感知的非重复生成

TL;DR本文提出了一种基于信心感知的非重复多模态 Transformer(CNMT)模型,通过优化 OCR 系统、加入置信度嵌入来选择关键词,并使用重复掩码在图片描述中避免重复,旨在提高文本阅读能力,避免预测重复单词,并在 TextCaps 数据集上取得了较好的表现,CIDEr 从 81.0 提高到 93.0。