双线性注意力网络
本文为了提高图像描述任务中的交叉多模态推理(Multi-modal Reasoning)表现,提出了一种新颖的 X-Linear 注意力块和注意力网络(X-LAN),利用双线性池化策略和指数线性单元(Exponential Linear Unit,ELU),有效消除了注意机制和交互式双线性建模之间的性能差距,实现了对图像和文本高阶内模态和交叉模态信息的提取。同时,在 Transformer 中加入 X-Linear 注意力块,可以进一步提升模型表现。
Mar, 2020
本文探讨了在多模态翻译中使用复合双线性池化方法的效果,通过将两种注意力特征进行外积组合,相比于基本的组合方法,其对于图像字幕翻译的表现有所提升。
Mar, 2017
开发了一个多模式因式双线性池化(MFB)方法,通过 MFB 方法的融合和对视觉和文本信息的细粒度表示,结合协同注意力机制,在视觉问题回答中达到了最先进的成果。
Aug, 2017
本研究提出了一种统一的注意力模型,能够同时捕捉多模态特征的内部和跨模态之间的相互作用,并输出相应的注意力表示。通过堆叠这样的统一注意力块,我们获得了深度多模态统一注意力网络 (MUAN),可以无缝地应用于视觉问答 (VQA) 和视觉定位任务。通过在两个 VQA 数据集和三个视觉定位数据集上评估 MUAN 模型,结果表明 MUAN 在两个任务上都实现了顶级性能。
Aug, 2019
Blur-aware Attention Network (BANet) 通过使用区域自注意力和多核带池来分离不同大小和方向的模糊模式,以及级联并行膨胀卷积来聚合多尺度内容特征,提供了单次前向传递的精确和高效的去模糊,实验证明与当前技术相比,在模糊图像恢复方面表现良好,并且可以实时提供去模糊结果。
Jan, 2021
提出双重关注网络框架(Dual Attention Networks),应用于视觉和文本场景的多模态推理、比对任务,在 Visual Question Answering 和图片 - 文本比对任务中取得最新的优异表现。
Nov, 2016
本文提出一种双向注意力网络(BANet)用于单目深度估计,通过利用神经机器翻译的概念基础和引入双向注意力模块,该方法能够高效地将局部和全局信息相融合,并在 KITTI 和 DIODE 数据集上显著优于传统的前馈模型以及其他现有的单目深度估计方法。
Sep, 2020
本文提出了一种双重注意力块 (double attention block) 的方法,其聚合和传播了来自输入图像 / 视频的整个时空空间的全局特征,从而使下一层卷积层高效地访问整个空间中的特征;将此块应用于当前卷积神经网络,可以显著提高图像 / 视频的识别性能,在 ImageNet-1k 数据集上,ResNet-50 与双重注意力块的表现优于参数数量多得多的 ResNet-152, 在动作识别任务中,该模型在 Kinetics 和 UCF-101 数据集上取得了最先进的成果。
Oct, 2018
本文探讨了利用从大型语言或视觉数据集训练得到的向量表示来建模文本或视觉信息,提出并评价了 Multimodal Compact Bilinear pooling (MCB) 的表现优于传统的多模态平均池化方法,并通过在视觉问答和定位任务中应用,佐证出 MCB 的有效性和高表达性。
Jun, 2016