利用共注意力对齐符号和物体以理解视觉广告

CVPRJul, 2018

利用共注意力对齐符号和物体以理解视觉广告

Understanding Visual Ads by Aligning Symbols and Objects using Co-Attention

Karuna Ahuja, Karan Sikka, Anirban Roy, Ajay Divakaran

TL;DR本文提出了一种注意力机制下的嵌入模型，通过利用多模态表示来关联图像提议与符号并从中有效地汇集信息。我们应用多次多模态注意力机制来迭代改进注意力映射，从而提高精确度，并采用最大化边缘损失函数进行端到端学习，证明该模型在广告数据集上的效果优于其他基线模型。

Abstract

We tackle the problem of understanding visual ads where given an ad image, our goal is to rank appropriate human generated statements describing the purpose of the ad. This problem is generally addressed by jointly embe

visual ads embedding attention mechanism multimodal representations max-margin loss function

发现论文，激发创造

通过视觉哨兵实现自适应关注的图像字幕

本文提出了一种新的自适应注意力模型，具有视觉哨兵，在每个时间步骤，模型决定是关注图像还是关注视觉哨兵，通过这种方式针对性地提取有意义的信息以生成图像字幕，实验证明我们的方法在 COCO 图像字幕 2015 年挑战数据集和 Flickr30K 上的效果优越并创造了新的最佳表现。

Dec, 2016

基于文本引导的图像字幕注意力模型

本研究提出了一种基于文本引导注意力模型的图像字幕生成方法，其能够通过联合图片及相应说明文本的训练数据来实现视觉关注，有效地区分图像中的细小或混淆对象，进而在 MS-COCO 图像字幕生成基准测试中获得最佳性能。

Dec, 2016

多模态机器翻译的视觉注意力基础神经模型

我们介绍了一种新颖的多模式机器翻译模型，利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义，并实现共享的视觉 - 语言嵌入和翻译器的联合优化，取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上，我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。

Aug, 2018

使用视觉注意力的神经图像字幕生成

该论文介绍了一种基于注意力机制的模型，通过机器翻译和物体检测实现图像内容的自动描述，通过最大化变分下界确定性训练该模型，并展示了该模型在生成输出序列时能够自动学习聚焦于显著物体。三个基准数据集上的性能表现也证明了该模型的有效性。

Feb, 2015

强化注意力：利用人类的注意力进行图像字幕生成

使用两种类型的注意力机制：从上至下的语言传达信息和自底向上的视觉信号，通过提出 Boosted Attention 模型实现将它们整合在图像字幕生成任务中，从而提高了效果。

Mar, 2019

语义关注下的图像字幕生成

本文提出了一种融合上下文语境的自动图像描述算法，通过自下而上的计算和语义关注的上下文交互作用，成功在 Microsoft COCO 和 Flickr30K 两个公开基准测试中取得了明显的优于现有算法的结果。

Mar, 2016

利用偏序关系引导注意力进行图像字幕生成

本文提出了一种引导式的注意力网络机制，将图像的空间特征、主题的高级信息以及生成的字幕的时间上下文嵌入到一个有序的嵌入空间中进行训练，采用成对的排序目标函数，该模型在 MSCOCO 数据集上表现出与众多最先进模型相媲美的竞争力。

Apr, 2022

基于多头注意力的多元化地位学习跨语言多模态表示

本文提出了一种基于视觉物体检测和不同文本语义的多语言多模态表示的模型，采用多头注意力机制对两种语言的文本语义和视觉对象进行细粒度对齐，从而学习到更好的视觉 - 语义嵌入空间，并在多个任务上展现了比其他方法更显著的性能提升。

Sep, 2019

看得更多，知道得更多：利用联合注意力孪生网络进行无监督视频对象分割

提出了一种名为 COSNet 的新型网络，用于表示全局视角下的无监督视频对象分割任务，其中利用全局注意机制结合视频帧之间的相关性，训练效果超越当前的深度学习方法。

Jan, 2020

多模式统一关注网络用于视觉语言交互

本研究提出了一种统一的注意力模型，能够同时捕捉多模态特征的内部和跨模态之间的相互作用，并输出相应的注意力表示。通过堆叠这样的统一注意力块，我们获得了深度多模态统一注意力网络 (MUAN)，可以无缝地应用于视觉问答 (VQA) 和视觉定位任务。通过在两个 VQA 数据集和三个视觉定位数据集上评估 MUAN 模型，结果表明 MUAN 在两个任务上都实现了顶级性能。

Aug, 2019