基于注意力模型的跨领域图像检索
提出了一种使用自注意力作为额外损失项的新架构,以在联合潜在空间中表示图像和文本;在 MS-COCO 和 ARCH 两个基准数据集上进行的实验结果表明,该方法具有很好的效果。
Mar, 2022
本文提出了一种基于双属性感知排序网络的跨域图像检索方法,解决了实际应用中用户拍摄的非理想服装图像与在线购物图片之间巨大差距的问题,并通过语义属性学习、视觉相似性约束以及大规模数据集的使用极大地提高了图像检索的性能。
May, 2015
通过利用弱监督网络图像,提出了一种能够将图像转移到视频领域的深度学习分类器,使用 Siamese EnergyNet 网络结构来优化空间注意力图的能量函数,解决了基于网络图像训练的分类器到视频上显著下降的问题。
Aug, 2017
研究使用检索增强模型来提高计算机视觉任务的识别能力,引入了一种基于注意力机制的记忆模块,学习从外部记忆集合中检索出的每个例子的重要性,证明了使用 10 亿个图像 - 文本对的大规模记忆数据集的好处,并在 ImageNet-LT,Places-LT 和 Webvision 数据集中取得了最先进的准确性。
Apr, 2023
通过建立视觉注意力和问题注意力相结合的协作注意力模型,使用新型一维卷积神经网络来在分层结构中处理问题,从而使 VQA 数据集上的性能从 60.3%提高到 60.5%,并且在 COCO-QA 数据集上从 61.6%提高到 63.3%。在加入 ResNet 模型后,VQA 指标进一步提升至 62.1%,COCO-QA 指标达到 65.4%。
May, 2016
本研究提出基于 Transformer 的全局与局部信息探索与提炼方法,在跨模态视角下探究图像字幕生成,并在 COCO 测试集上取得了 129.3 的 CIDEr 分数。
Feb, 2020
本文提出了一个基于注意力机制的自然语言人物检索系统,并成功应用于监控视频检索领域中,该系统使用了 Faster R-CNN 中的候选区域生成器来提取视觉特征,并利用 BLSTM 模型进行文本特征提取,将其融合后进行得分,可以更加精确地检索到所需的目标。
May, 2017
本研究旨在通过多任务学习方式训练一个网络实现视觉注意力,使用半监督学习方式生成前 / 背景分割标签,进而训练目标检测模型,利用分割地图实现自我注意机制,获得在交通监控领域两个数据集上显著的 mAP 改进,UA-DETRAC 和 UAVDT 数据集上均实现了最先进的结果。
Feb, 2020
本研究采用自然语言反馈的图像检索方法,结合图像与文本特征实现细粒度视觉搜索并提出了 MAAF 模型,在 Fashion IQ 和 CSS 数据集中比现有方法表现更优,同时在 Fashion200k 数据集中也取得竞争性表现。此外,我们还提出了两个适用于丰富语言输入的新挑战基准,并通过实验证明该方法在不修改时优于强基线。最后我们在 Fashion IQ 上进行了深入细致的分析和可视化,揭示了单词避免 “关注” 他们所指图像区域的惊人现象
Jun, 2020
本文介绍了如何通过混合 CNN 技术和类别先验信息,在 CTR 预测中提高广告点击率,取得了显著的后验实验结果和在线实验结果。
May, 2022