Jun, 2019

图像字幕生成:物体到文字的转换

TL;DR本文介绍了一种名为 “Object Relation Transformer” 的图像描述模型,该模型在编码器 - 解码器架构中显式地整合了有关输入检测对象的空间关系,以几何关注的方式建模。结果表明,这种几何关注对图像描述非常重要,并在 MS-COCO 数据集上的各种标准评估指标上均有改进。