WikiDiverse：一个多模态的实体链接数据集，具有多样化的上下文主题和实体类型

Apr, 2022

WikiDiverse：一个多模态的实体链接数据集，具有多样化的上下文主题和实体类型

WikiDiverse: A Multimodal Entity Linking Dataset with Diversified Contextual Topics and Entity Types

Xuwu Wang, Junfeng Tian, Min Gui, Zhixu Li, Rui Wang...

TL;DR本研究提出了 WikiDiverse，一个高质量的人工注释的 Multimodal Entity Linking（MEL）数据集，利用该数据集提出了一系列好的基于 intra-modality 和 inter-modality attentions 的 MEL 模型，比现有的 MEL 模型更充分利用图像的视觉信息，并通过大量实验分析了不同模态在 MEL 任务中的贡献。

Abstract

multimodal entity linking (MEL) which aims at linking mentions with multimodal contexts to the referent entities from a knowledge base (e.g., Wikipedia), is an essential task for many multimodal applications. Although much attention has been paid to MEL, the shortcomings of existing ME

multimodal entity linking mel dataset wikidiverse intra-modality and inter-modality attentions visual information

发现论文，激发创造

推文的多模态实体链接

本文探讨多模态实体链接的任务，提出了一种方法来构建一个完全注释的 Twitter 数据集，同时提出了一种同时学习文本和视觉内容的方法来构建一个实体和言及的表征，并在 Twitter 数据集上验证了该方法的有效性，并强调在可用时，利用视觉信息的重要性。

Apr, 2021

生成式多模态实体链接

在大规模预训练模型的基础上，提出了一种基于自然语言生成的简单而有效的跨模态实体链接方法，通过使用 in-context learning 能力以及取回多模态实例作为演示来自适应语言模型来解决昂贵且难以扩展的困境。

Jun, 2023

一种基于文本匹配的双向增强框架的多模态实体链接

多模态实体链接的双向增强框架 (DWE) 通过神经文本匹配将多模态信息与知识图谱中的实体进行链接，并利用维基百科描述来丰富实体的语义和减少实体之间的文本表示与知识图谱中实体的差异。

Dec, 2023

DWE+: 多模态实体链接增强框架

通过提出细粒度图像特征提取、视觉属性融合和语义丰富的方法，DWE + 模型在多模态实体链接中取得了显著的性能提升，优化了相关数据集并达到了最先进的表现。

Apr, 2024

使用生成模型进行多样化形式实体链接的基准测试

提出了一种基于多模态编码器 - 解码器范式的生成模型，用于对广泛多种格式的实体进行链接，并在现有 EL 数据集中建立了覆盖文本、图像和表格三种多模态的基准，经预训练和微调后能表现比特定任务 EL 模型更强的 DMEL 基线，相比其它方法平均提高 8.51 的 F1 得分。

May, 2023

实体链接的多粒度多模态交互网络

本文提出了一种名为多维多模态交互网络（MIMIC）的框架，用于解决多模态实体链接（MEL）任务，并通过对相互作用单元和对比学习的设计，将简洁文本和隐含视觉线索的精细表示结合起来，实现了更好的性能，超过了各种最先进的基准模型。

Jul, 2023

AMELI：细粒度属性增强的多模态实体链接

提出了属性感知的多模态实体链接技术，利用多模态知识库中每个实体的文本描述、图片和属性值，结合 18,472 个评论和 35,598 个产品的大型数据集 AMELI，揭示属性信息在实体链接过程中的重要性，建立了该领域的基准数据集和解决方案。

May, 2023

MELINDA: 生物医学实验方法分类的多模态数据集

本文介绍了一个新的多模态生物医学实验方法分类数据集 MELINDA，并使用各种最先进的自然语言处理和计算机视觉模型进行了基准测试和分析，结果表明多模态模型优于单模态模型，但仍需要改进，特别是在视觉和语言语义互相理解和转化方面以及在处理低资源域时。该文还发布了数据集和基准测试，以便未来的多模态学习研究，特别是针对科学领域的应用的目标改进的激励。

Dec, 2020

DRIN：动态关系互动网络用于多模态实体链接

多模态实体链接是一项旨在将多模态情境中的歧义提及链接到多模态知识库中指代实体的任务。本研究提出了一种名为动态关系交互网络（DRIN）的新框架，用于处理 MEL 任务，并通过实验证明 DRIN 在两个数据集上优于现有方法。

Oct, 2023

多模态知识库下的多模态实体标记

本文提出了一个新的任务叫做多模态实体标记 (MET) 以及一个多模态知识库，并开发了一个数据集以解决该问题。使用信息检索范式解决此任务并使用 NLP 和 CV 中最先进的方法实现了几个基线。结果表明，该任务具有挑战性，但当前技术可以实现相对较高的性能。

Dec, 2021