CVPRApr, 2019

图像字幕生成中的新颖物体指示

TL;DR提出了一种新的深度图片描述模型 Long Short-Term Memory with Pointing (LSTM-P),结合对象学习方法和指向机制实现了词汇的扩充和全局物体涵盖。在 COCO 数据集和 ImageNet 数据集上的实验结果显示其优于现有方法,最终在 COCO 数据集上获得了平均 F1 分数为 60.9% 的表现