X-Linear Attention Networks 图像标注

CVPRMar, 2020

X-Linear Attention Networks for Image Captioning

Yingwei Pan, Ting Yao, Yehao Li, Tao Mei

TL;DR本文为了提高图像描述任务中的交叉多模态推理（Multi-modal Reasoning）表现，提出了一种新颖的 X-Linear 注意力块和注意力网络（X-LAN），利用双线性池化策略和指数线性单元（Exponential Linear Unit，ELU），有效消除了注意机制和交互式双线性建模之间的性能差距，实现了对图像和文本高阶内模态和交叉模态信息的提取。同时，在 Transformer 中加入 X-Linear 注意力块，可以进一步提升模型表现。

Abstract

Recent progress on fine-grained visual recognition and visual question answering has featured bilinear pooling, which effectively models the 2$^{nd}$ order interactions across multi-modal inputs. Nevertheless, there has not been evidence in support of building such interactions concurr

bilinear pooling x-linear attention block multi-modal reasoning image captioning transformer

发现论文，激发创造

双线性注意力网络

本研究提出了一种基于双线性注意力网络的多模态学习方法，通过提取双线性交互特征来优化多模态输入的注意力分布，以提高视觉问题回答（VQA）和 Flickr30k 数据集上的性能表现。

May, 2018

多模态紧凑双线性池化用于多模态神经机器翻译

本文探讨了在多模态翻译中使用复合双线性池化方法的效果，通过将两种注意力特征进行外积组合，相比于基本的组合方法，其对于图像字幕翻译的表现有所提升。

Mar, 2017

基于变分堆叠局部注意力网络的多样化视频字幕生成

提出了一种基于 VSLAN 的视频字幕生成模型，该模型在编码器 - 解码器体系结构的基础上利用低秩双线性池化进行自我关注特征交互，并采用多特征流叠加的方式实现多样性编码，并实现了端到端的字幕生成，取得了较好的性能。

Jan, 2022

$A^2$-Nets：双重注意力网络

本文提出了一种双重注意力块 (double attention block) 的方法，其聚合和传播了来自输入图像 / 视频的整个时空空间的全局特征，从而使下一层卷积层高效地访问整个空间中的特征；将此块应用于当前卷积神经网络，可以显著提高图像 / 视频的识别性能，在 ImageNet-1k 数据集上，ResNet-50 与双重注意力块的表现优于参数数量多得多的 ResNet-152, 在动作识别任务中，该模型在 Kinetics 和 UCF-101 数据集上取得了最先进的成果。

Oct, 2018

LILE: 使用 Transformer 的双重注意力网络进行组织病理学资料检索前深入查看

提出了一种使用自注意力作为额外损失项的新架构，以在联合潜在空间中表示图像和文本；在 MS-COCO 和 ARCH 两个基准数据集上进行的实验结果表明，该方法具有很好的效果。

Mar, 2022

动态图中的双线性交互学习时间注意力

该论文通过使用时态点过程和变分自编码器提出了一种无需人工边缘指定的模型，学习推断节点间的时间关注力，从而具有更大的灵活性和更好的性能，用于动态链接预测任务。

Sep, 2019

ELA：深度卷积神经网络的高效局部注意力

本篇论文提出了一种高效的局部注意力 (ELA) 方法，该方法通过引入 1D 卷积和分组归一化特征增强技术，实现了在不通过降维的情况下，精确定位感兴趣区域的目标，并且具备轻量级的实现。在 ImageNet、MSCOCO 和 Pascal VOC 数据集上的广泛评估表明，ELA 模块在图像分类、目标检测和语义分割等三个视觉任务中优于当前最先进的方法。

Mar, 2024

探索和提取跨模态信息以用于图像字幕生成

本研究提出基于 Transformer 的全局与局部信息探索与提炼方法，在跨模态视角下探究图像字幕生成，并在 COCO 测试集上取得了 129.3 的 CIDEr 分数。

Feb, 2020

MoNet: 基于矩特征的嵌入式神经网络

该文章提出了一种用于视觉任务的 MoNet 结构，它使用了二阶池化的双线性池化方法并通过子矩阵平方根层来解决维度问题，结合矩阵规范化和其他阶信息，实验结果表明，MoNet 在三个公开的图像分类数据集上表现良好，可实现与具有比其 96% 更少维度的编码特征相当的性能。

Feb, 2018

多模式统一关注网络用于视觉语言交互

本研究提出了一种统一的注意力模型，能够同时捕捉多模态特征的内部和跨模态之间的相互作用，并输出相应的注意力表示。通过堆叠这样的统一注意力块，我们获得了深度多模态统一注意力网络 (MUAN)，可以无缝地应用于视觉问答 (VQA) 和视觉定位任务。通过在两个 VQA 数据集和三个视觉定位数据集上评估 MUAN 模型，结果表明 MUAN 在两个任务上都实现了顶级性能。

Aug, 2019