Feb, 2017

MAT: 图像字幕的多模态注意力翻译器

TL;DR通过序列到序列的循环神经网络模型,从图像中提取对象序列并引入顺序注意力层,将图像的顺序信息自然地转化为单词序列,在 MS COCO 数据集中超越了现有方法并且在评估服务中也取得了竞争性的结果。