基于视觉搜索与文本反馈的模态无关注意力融合

Jun, 2020

基于视觉搜索与文本反馈的模态无关注意力融合

Modality-Agnostic Attention Fusion for visual search with text feedback

Eric Dodds, Jack Culpepper, Simao Herdade, Yang Zhang, Kofi Boakye

TL;DR本研究采用自然语言反馈的图像检索方法，结合图像与文本特征实现细粒度视觉搜索并提出了 MAAF 模型，在 Fashion IQ 和 CSS 数据集中比现有方法表现更优，同时在 Fashion200k 数据集中也取得竞争性表现。此外，我们还提出了两个适用于丰富语言输入的新挑战基准，并通过实验证明该方法在不修改时优于强基线。最后我们在 Fashion IQ 上进行了深入细致的分析和可视化，揭示了单词避免 “关注” 他们所指图像区域的惊人现象

Abstract

image retrieval with natural language feedback offers the promise of catalog search based on fine-grained visual features that go beyond o

image retrieval natural language feedback modality-agnostic attention fusion visual search fine-grained visual features

发现论文，激发创造

MA-ViT：面部防欺诈的模态不敏感视觉变换器

本文提出了一种名为 Modality-Agnostic Vision Transformer (MA-ViT) 的单分支变压器框架和一个名为 Modality-Agnostic Transformer Block (MATB) 的模型，用于提高任意模态攻击的性能，并通过多模态数据来灵活测试任何给定的模态样本。

Apr, 2023

多模式统一关注网络用于视觉语言交互

本研究提出了一种统一的注意力模型，能够同时捕捉多模态特征的内部和跨模态之间的相互作用，并输出相应的注意力表示。通过堆叠这样的统一注意力块，我们获得了深度多模态统一注意力网络 (MUAN)，可以无缝地应用于视觉问答 (VQA) 和视觉定位任务。通过在两个 VQA 数据集和三个视觉定位数据集上评估 MUAN 模型，结果表明 MUAN 在两个任务上都实现了顶级性能。

Aug, 2019

跨模式目标跟踪通过模态感知融合网络和大规模数据集

提出了一种自适应跨模态目标跟踪算法 Modality-Aware Fusion Network（MAFNet），它通过自适应加权机制有效地整合 RGB 和近红外模态的信息，弥合了外观差距，实现了模态感知的目标表示。

Dec, 2023

多模态机器翻译的视觉注意力基础神经模型

我们介绍了一种新颖的多模式机器翻译模型，利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义，并实现共享的视觉 - 语言嵌入和翻译器的联合优化，取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上，我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。

Aug, 2018

利用加性注意力组合学习的图像搜索与文本反馈

该研究提出了一种称为 AACL 的方法，它基于多模式 Transformer 结构，可用于有效地检索类似于给定源图像的目标图像并且满足所提供的修改。在多项实验中，AACL 均实现了最新的最佳结果。

Mar, 2022

视觉问答的动态融合与内部和外部模态注意流动

提出了动态融合多模态特征的方法，在视觉和语言模式之间和内部模型之间传递动态信息，从而捕捉语言和视觉领域之间的高级交互作用，显著提高视觉问题回答的效率，同时还提出了关于多模态特征融合的联合训练方法，并使用 VQA 2.0 数据集进行了实验验证，取得了最佳表现。

Dec, 2018

Few-Shot 识别的属性引导与纯视觉注意力对齐

本文提出了一种利用人工注释属性的属性引导注意力模块 (AGAM)，以实现更具有区分性的特征学习，从而改善仅使用视觉信息的查询集的特征选择，达到了不同数据集和设置下的最先进性能。

Sep, 2020

面向文本属性的隐式模态对齐的人物搜索

通过 Attribute-Aware Implicit Modality Alignment (AIMA) 框架，使用 CLIP 模型及 Attribute-IoU Guided Intra-Modal Contrastive (A-IoU IMC) Loss，实现了文本属性人物搜索中文本属性与图像之间的对齐和表示匹配，进一步优化了语义排列。

Jun, 2024

MAF：用于弱监督短语定位的多模态对齐框架

本文提出了一种多模态对齐框架（MAF）来解决注释短语对目标的数据集收集难的问题，通过细粒度视觉表示和视觉感知语言表示模型研究了短语 - 目标相关性，使用对比学习等弱监督学习方法，实现了在 Flickr30k 数据集上对弱监督方法的显著性改进，并在视觉感知语言表示的帮助下，将无监督结果的精度提升了 5.56%。

Oct, 2020

利用分层注意策略和词级对齐的多模态情感分析

本文研究了从多个数据来源中学习识别和解释人类情感和主观信息的多模态情感计算问题，提出了一种基于 attention 机制和单词级融合的分层多模态体系结构，以从文本和音频数据中分类识别发言级别的情感和情绪。结果表明，该模型在现有数据集上表现优异。

May, 2018