多模态命名实体识别的图像文本对齐

ACLDec, 2021

多模态命名实体识别的图像文本对齐

ITA: Image-Text Alignments for Multi-Modal Named Entity Recognition

Xinyu Wang, Min Gui, Yong Jiang, Zixia Jia, Nguyen Bach...

TL;DR本文提出了一种基于图像与文本对齐的多模态命名实体识别技术，通过将图像特征与文本信息在文本空间中对齐，将两者之间的交互作用结合在一起，以此提高命名实体识别的准确性。

Abstract

Recently, multi-modal named entity recognition (MNER) has attracted a lot of attention. Most of the work utilizes image information through region-level visual representations obtained from a pretrained object detector and relies on an →

multi-modal named entity recognition image-text alignment transformer-based textual embeddings attention mechanism cross-modal input

发现论文，激发创造

文本到图像的跨模态隐含关系推理和对齐的人物检索

研究了跨模态对齐的图像检索问题，提出了一种 IRRA 框架，并在三个公共数据集上获得了优于现有方法的最新成果。

Mar, 2023

标签对齐前的多模式标签集成视频文本检索

本文提出了一种用于视频 - 文本检索的 TABLE（标记前对齐）网络，该网络通过标记将多模态信息显式地集成在一起，并在视觉编码器、标记编码器、文本编码器和带有标记引导的跨模态编码器的联合编码下，使用预训练的多模态专家从多模态中提取信息。实验表明，TABLE 模型在 MSR-VTT、MSVD、LSMDC 和 DiDeMo 等多个视频 - 文本检索基准中表现出了最先进的性能。

Jan, 2023

SITTA: 图像描述任务中的语义图像文本对齐

为了使生成合适的图片字幕，需要对图像进行文本和语义理解。我们提出了两种新方法来构建线性映射，从而成功地在两个预训练模型的嵌入空间之间转移语义。使用我们的语义映射，我们为 MS-COCO 和 Flickr30k 数据集实现了强大的字幕性能。即使在数据有限的情况下，我们的方法也能在某种程度上超过其他零样本和微调竞争对手的表现。

Jul, 2023

命名实体识别的平面多模互动变压器

本文提出了一种基于 Flat Multi-modal Interaction Transformer 的多模态命名实体识别方法，通过新颖的相对位置编码匹配不同的模式，以及通过实体边界检测作为辅助任务减轻视觉偏见，实现了对社交媒体帖子中的文本和图片进行 NLP 任务的高效准确识别，取得了业界新的最佳性能表现。

Aug, 2022

使用 Transformer 编码器进行跨模态检索的细粒度视觉文本对齐

通过词区匹配实现图像 - 句子匹配，本文提出了一种名为 TERAN 的新方法，在图像和句子的不同组件之间执行精细匹配，从而实现了跨模式检索，并在 MS-COCO 和 Flickr30k 数据集上获得了最先进的结果。

Aug, 2020

面向文本属性的隐式模态对齐的人物搜索

通过 Attribute-Aware Implicit Modality Alignment (AIMA) 框架，使用 CLIP 模型及 Attribute-IoU Guided Intra-Modal Contrastive (A-IoU IMC) Loss，实现了文本属性人物搜索中文本属性与图像之间的对齐和表示匹配，进一步优化了语义排列。

Jun, 2024

图像文本检索：近期研究与发展综述

本文全面介绍了跨模态图像 - 文本检索的研究进展，包括特征提取、特征对齐、效率优化以及预训练，讨论了一些关键但较少被研究的问题，并对代表性方法进行了精度比较。

Mar, 2022

以精细化理解带来更丰富的视野：基于隐含模态对文本人物检索的对齐

本研究提出了一种隐式视觉 - 文本框架，通过多级和双向遮罩建模方法实现跨模态匹配，提高了人物的文本检索效果。

Aug, 2022

通过双向生成对齐学习多模态 NER 中的隐式实体 - 对象关系

该研究提出了一种名为 BGA-MNER 的双向生成对齐方法，用于解决多模态命名实体识别中的语义鸿沟、实体与图像中相关对象之间的匹配以及隐式实体 - 对象关系等问题。实验证明，该方法在推断过程中无需图像输入，取得了最先进的性能。

Aug, 2023

UNITER: 通用图像文本表示学习

本研究引入了 UNITER，一种通过对四个图像 - 文本数据集（COCO，Visual Genome，Conceptual Captions 和 SBU Captions）进行大规模预训练学习的 UNiversal image-text representation，其可为异构下游 V + L 任务提供联合多模态嵌入。

Sep, 2019