多模态命名实体识别的图像文本对齐
本文提出了一种用于视频 - 文本检索的 TABLE(标记前对齐)网络,该网络通过标记将多模态信息显式地集成在一起,并在视觉编码器、标记编码器、文本编码器和带有标记引导的跨模态编码器的联合编码下,使用预训练的多模态专家从多模态中提取信息。实验表明,TABLE 模型在 MSR-VTT、MSVD、LSMDC 和 DiDeMo 等多个视频 - 文本检索基准中表现出了最先进的性能。
Jan, 2023
为了使生成合适的图片字幕,需要对图像进行文本和语义理解。我们提出了两种新方法来构建线性映射,从而成功地在两个预训练模型的嵌入空间之间转移语义。使用我们的语义映射,我们为 MS-COCO 和 Flickr30k 数据集实现了强大的字幕性能。即使在数据有限的情况下,我们的方法也能在某种程度上超过其他零样本和微调竞争对手的表现。
Jul, 2023
本文提出了一种基于 Flat Multi-modal Interaction Transformer 的多模态命名实体识别方法,通过新颖的相对位置编码匹配不同的模式,以及通过实体边界检测作为辅助任务减轻视觉偏见,实现了对社交媒体帖子中的文本和图片进行 NLP 任务的高效准确识别,取得了业界新的最佳性能表现。
Aug, 2022
通过词区匹配实现图像 - 句子匹配,本文提出了一种名为 TERAN 的新方法,在图像和句子的不同组件之间执行精细匹配,从而实现了跨模式检索,并在 MS-COCO 和 Flickr30k 数据集上获得了最先进的结果。
Aug, 2020
通过 Attribute-Aware Implicit Modality Alignment (AIMA) 框架,使用 CLIP 模型及 Attribute-IoU Guided Intra-Modal Contrastive (A-IoU IMC) Loss,实现了文本属性人物搜索中文本属性与图像之间的对齐和表示匹配,进一步优化了语义排列。
Jun, 2024
本文全面介绍了跨模态图像 - 文本检索的研究进展,包括特征提取、特征对齐、效率优化以及预训练,讨论了一些关键但较少被研究的问题,并对代表性方法进行了精度比较。
Mar, 2022
该研究提出了一种名为 BGA-MNER 的双向生成对齐方法,用于解决多模态命名实体识别中的语义鸿沟、实体与图像中相关对象之间的匹配以及隐式实体 - 对象关系等问题。实验证明,该方法在推断过程中无需图像输入,取得了最先进的性能。
Aug, 2023
本研究引入了 UNITER,一种通过对四个图像 - 文本数据集(COCO,Visual Genome,Conceptual Captions 和 SBU Captions)进行大规模预训练学习的 UNiversal image-text representation,其可为异构下游 V + L 任务提供联合多模态嵌入。
Sep, 2019