基于注意力模型的跨领域图像检索

Sep, 2017

基于注意力模型的跨领域图像检索

Cross-Domain Image Retrieval with Attention Modeling

Xin Ji, Wei Wang, Meihui Zhang, Yang Yang

TL;DR本文旨在通过在电商网站上的标签信息和候选图像上下文信息，利用了 TagYNet 和 CtxYNet 等深度卷积神经网络架构，以实现对基于智能手机拍摄的图像进行检索的 Attention weights 计算和图像特征提取，可显著提高检索的准确率和效率。

Abstract

With the proliferation of e-commerce websites and the ubiquitousness of smart phones, cross-domain image retrieval using images taken by smart phones as queries to search products on →

cross-domain image retrieval smartphone queries e-commerce websites attention location deep convolutional neural networks

发现论文，激发创造

LILE: 使用 Transformer 的双重注意力网络进行组织病理学资料检索前深入查看

提出了一种使用自注意力作为额外损失项的新架构，以在联合潜在空间中表示图像和文本；在 MS-COCO 和 ARCH 两个基准数据集上进行的实验结果表明，该方法具有很好的效果。

Mar, 2022

双属性感知排名网络实现跨域图像检索

本文提出了一种基于双属性感知排序网络的跨域图像检索方法，解决了实际应用中用户拍摄的非理想服装图像与在线购物图片之间巨大差距的问题，并通过语义属性学习、视觉相似性约束以及大规模数据集的使用极大地提高了图像检索的性能。

May, 2015

网络图像的注意力转移用于视频识别

通过利用弱监督网络图像，提出了一种能够将图像转移到视频领域的深度学习分类器，使用 Siamese EnergyNet 网络结构来优化空间注意力图的能量函数，解决了基于网络图像训练的分类器到视频上显著下降的问题。

Aug, 2017

从全网图片 - 文本数据中检索来提高图像识别

研究使用检索增强模型来提高计算机视觉任务的识别能力，引入了一种基于注意力机制的记忆模块，学习从外部记忆集合中检索出的每个例子的重要性，证明了使用 10 亿个图像 - 文本对的大规模记忆数据集的好处，并在 ImageNet-LT，Places-LT 和 Webvision 数据集中取得了最先进的准确性。

Apr, 2023

视觉问答的层次化问题 - 图像协同注意力

通过建立视觉注意力和问题注意力相结合的协作注意力模型，使用新型一维卷积神经网络来在分层结构中处理问题，从而使 VQA 数据集上的性能从 60.3％提高到 60.5％，并且在 COCO-QA 数据集上从 61.6％提高到 63.3％。在加入 ResNet 模型后，VQA 指标进一步提升至 62.1%，COCO-QA 指标达到 65.4%。

May, 2016

探索和提取跨模态信息以用于图像字幕生成

本研究提出基于 Transformer 的全局与局部信息探索与提炼方法，在跨模态视角下探究图像字幕生成，并在 COCO 测试集上取得了 129.3 的 CIDEr 分数。

Feb, 2020

基于注意力机制的自然语言人物检索

本文提出了一个基于注意力机制的自然语言人物检索系统，并成功应用于监控视频检索领域中，该系统使用了 Faster R-CNN 中的候选区域生成器来提取视觉特征，并利用 BLSTM 模型进行文本特征提取，将其融合后进行得分，可以更加精确地检索到所需的目标。

May, 2017

SpotNet: 自注意力多任务网络用于目标检测

本研究旨在通过多任务学习方式训练一个网络实现视觉注意力，使用半监督学习方式生成前 / 背景分割标签，进而训练目标检测模型，利用分割地图实现自我注意机制，获得在交通监控领域两个数据集上显著的 mAP 改进，UA-DETRAC 和 UAVDT 数据集上均实现了最先进的结果。

Feb, 2020

基于视觉搜索与文本反馈的模态无关注意力融合

本研究采用自然语言反馈的图像检索方法，结合图像与文本特征实现细粒度视觉搜索并提出了 MAAF 模型，在 Fashion IQ 和 CSS 数据集中比现有方法表现更优，同时在 Fashion200k 数据集中也取得竞争性表现。此外，我们还提出了两个适用于丰富语言输入的新挑战基准，并通过实验证明该方法在不修改时优于强基线。最后我们在 Fashion IQ 上进行了深入细致的分析和可视化，揭示了单词避免 “关注” 他们所指图像区域的惊人现象

Jun, 2020

基于混合卷积神经网络和类别先验的用户图像行为建模注意力机制

本文介绍了如何通过混合 CNN 技术和类别先验信息，在 CTR 预测中提高广告点击率，取得了显著的后验实验结果和在线实验结果。

May, 2022