CVPRMar, 2020

X-Linear Attention Networks 图像标注

TL;DR本文为了提高图像描述任务中的交叉多模态推理(Multi-modal Reasoning)表现,提出了一种新颖的 X-Linear 注意力块和注意力网络(X-LAN),利用双线性池化策略和指数线性单元(Exponential Linear Unit,ELU),有效消除了注意机制和交互式双线性建模之间的性能差距,实现了对图像和文本高阶内模态和交叉模态信息的提取。同时,在 Transformer 中加入 X-Linear 注意力块,可以进一步提升模型表现。