CVPRJul, 2017

基于自下而上和自上而下的注意力机制用于图像字幕生成与视觉问答

TL;DR本篇研究提出一种混合自下而上和自上而下视觉关注机制,能在对象和其他显著图像区域的水平上计算注意力权重,实现更深入图像理解,将其应用于图像字幕生成和视觉问答任务中,取得了优于现有技术的成绩。