生成式多模态实体链接

Jun, 2023

Generative Multimodal Entity Linking

Senbao Shi, Zhenran Xu, Baotian Hu, Min Zhang

TL;DR在大规模预训练模型的基础上，提出了一种基于自然语言生成的简单而有效的跨模态实体链接方法，通过使用 in-context learning 能力以及取回多模态实例作为演示来自适应语言模型来解决昂贵且难以扩展的困境。

Abstract

multimodal entity linking (MEL) is the task of mapping mentions with multimodal contexts to the referent entities from a knowledge base (e.g., wikipedia). Prior MEL methods mainly focus on designing complex multi

multimodal entity linking generative multimodal entity linking large language models in-context learning wikipedia

发现论文，激发创造

推文的多模态实体链接

本文探讨多模态实体链接的任务，提出了一种方法来构建一个完全注释的 Twitter 数据集，同时提出了一种同时学习文本和视觉内容的方法来构建一个实体和言及的表征，并在 Twitter 数据集上验证了该方法的有效性，并强调在可用时，利用视觉信息的重要性。

Apr, 2021

实体链接的多粒度多模态交互网络

本文提出了一种名为多维多模态交互网络（MIMIC）的框架，用于解决多模态实体链接（MEL）任务，并通过对相互作用单元和对比学习的设计，将简洁文本和隐含视觉线索的精细表示结合起来，实现了更好的性能，超过了各种最先进的基准模型。

Jul, 2023

一种基于文本匹配的双向增强框架的多模态实体链接

多模态实体链接的双向增强框架 (DWE) 通过神经文本匹配将多模态信息与知识图谱中的实体进行链接，并利用维基百科描述来丰富实体的语义和减少实体之间的文本表示与知识图谱中实体的差异。

Dec, 2023

使用生成模型进行多样化形式实体链接的基准测试

提出了一种基于多模态编码器 - 解码器范式的生成模型，用于对广泛多种格式的实体进行链接，并在现有 EL 数据集中建立了覆盖文本、图像和表格三种多模态的基准，经预训练和微调后能表现比特定任务 EL 模型更强的 DMEL 基线，相比其它方法平均提高 8.51 的 F1 得分。

May, 2023

WikiDiverse：一个多模态的实体链接数据集，具有多样化的上下文主题和实体类型

本研究提出了 WikiDiverse，一个高质量的人工注释的 Multimodal Entity Linking（MEL）数据集，利用该数据集提出了一系列好的基于 intra-modality 和 inter-modality attentions 的 MEL 模型，比现有的 MEL 模型更充分利用图像的视觉信息，并通过大量实验分析了不同模态在 MEL 任务中的贡献。

Apr, 2022

DWE+: 多模态实体链接增强框架

通过提出细粒度图像特征提取、视觉属性融合和语义丰富的方法，DWE + 模型在多模态实体链接中取得了显著的性能提升，优化了相关数据集并达到了最先进的表现。

Apr, 2024

DRIN：动态关系互动网络用于多模态实体链接

多模态实体链接是一项旨在将多模态情境中的歧义提及链接到多模态知识库中指代实体的任务。本研究提出了一种名为动态关系交互网络（DRIN）的新框架，用于处理 MEL 任务，并通过实验证明 DRIN 在两个数据集上优于现有方法。

Oct, 2023

多模式生成嵌入模型

多模态生成嵌入模型能够同时处理多模态任务，在效率上具有竞争力，具备良好的图像标题生成和文本图像检索能力。

May, 2024

多语言自回归实体链接

本文介绍了 mGENRE，一个多语言实体链接（MEL）问题的序列到序列系统。使用自回归网络，mGENRE 将输入句子中的实体转化为 KB 中的目标实体，采用多语言实体名称匹配方案，在零样本情境下取得 50% 以上的性能提升，实现了最新的最好表现。

Mar, 2021

受指导的语言模型结合检索器是强大的实体链接器

通过指导性生成实体连接器，使常规语言模型在大规模知识库上能够进行实体连接，有助于克服生成模型的虚幻性，提高链接表现并提高数据和计算效率。

Nov, 2023