ECCVMar, 2019

强化注意力:利用人类的注意力进行图像字幕生成

TL;DR使用两种类型的注意力机制:从上至下的语言传达信息和自底向上的视觉信号,通过提出 Boosted Attention 模型实现将它们整合在图像字幕生成任务中,从而提高了效果。