本文探讨多模态实体链接的任务,提出了一种方法来构建一个完全注释的 Twitter 数据集,同时提出了一种同时学习文本和视觉内容的方法来构建一个实体和言及的表征,并在 Twitter 数据集上验证了该方法的有效性,并强调在可用时,利用视觉信息的重要性。
Apr, 2021
本文提出了一种名为多维多模态交互网络(MIMIC)的框架,用于解决多模态实体链接(MEL)任务,并通过对相互作用单元和对比学习的设计,将简洁文本和隐含视觉线索的精细表示结合起来,实现了更好的性能,超过了各种最先进的基准模型。
Jul, 2023
多模态实体链接的双向增强框架 (DWE) 通过神经文本匹配将多模态信息与知识图谱中的实体进行链接,并利用维基百科描述来丰富实体的语义和减少实体之间的文本表示与知识图谱中实体的差异。
Dec, 2023
提出了一种基于多模态编码器 - 解码器范式的生成模型,用于对广泛多种格式的实体进行链接,并在现有 EL 数据集中建立了覆盖文本、图像和表格三种多模态的基准,经预训练和微调后能表现比特定任务 EL 模型更强的 DMEL 基线,相比其它方法平均提高 8.51 的 F1 得分。
May, 2023
本研究提出了 WikiDiverse,一个高质量的人工注释的 Multimodal Entity Linking(MEL)数据集,利用该数据集提出了一系列好的基于 intra-modality 和 inter-modality attentions 的 MEL 模型,比现有的 MEL 模型更充分利用图像的视觉信息,并通过大量实验分析了不同模态在 MEL 任务中的贡献。
Apr, 2022
通过提出细粒度图像特征提取、视觉属性融合和语义丰富的方法,DWE + 模型在多模态实体链接中取得了显著的性能提升,优化了相关数据集并达到了最先进的表现。
Apr, 2024
多模态实体链接是一项旨在将多模态情境中的歧义提及链接到多模态知识库中指代实体的任务。本研究提出了一种名为动态关系交互网络(DRIN)的新框架,用于处理 MEL 任务,并通过实验证明 DRIN 在两个数据集上优于现有方法。
Oct, 2023
多模态生成嵌入模型能够同时处理多模态任务,在效率上具有竞争力,具备良好的图像标题生成和文本图像检索能力。
May, 2024
本文介绍了 mGENRE,一个多语言实体链接(MEL)问题的序列到序列系统。使用自回归网络,mGENRE 将输入句子中的实体转化为 KB 中的目标实体,采用多语言实体名称匹配方案,在零样本情境下取得 50% 以上的性能提升,实现了最新的最好表现。
Mar, 2021
通过指导性生成实体连接器,使常规语言模型在大规模知识库上能够进行实体连接,有助于克服生成模型的虚幻性,提高链接表现并提高数据和计算效率。
Nov, 2023