Apr, 2021

多模态连续视觉注意机制

TL;DR本文介绍一种新的连续注意力机制,它生成具有高斯混合形式的多模态密度,用于图像区域的聚合。 该方法在视觉问题回答中表现出有竞争力的准确性和自动分离复杂场景中物体和地面的能力,并提供比其他方法更可解释的注意力地图。