多模态知识库下的多模态实体标记

Dec, 2021

多模态知识库下的多模态实体标记

Multimodal Entity Tagging with Multimodal Knowledge Base

Hao Peng, Hang Li, Lei Hou, Juanzi Li, Chao Qiao

TL;DR本文提出了一个新的任务叫做多模态实体标记 (MET) 以及一个多模态知识库，并开发了一个数据集以解决该问题。使用信息检索范式解决此任务并使用 NLP 和 CV 中最先进的方法实现了几个基线。结果表明，该任务具有挑战性，但当前技术可以实现相对较高的性能。

Abstract

To enhance research on multimodal knowledge base and multimodal information processing, we propose a new task called multimodal entity tagging (MET) with a →

multimodal entity tagging multimodal knowledge base information retrieval nlp cv

发现论文，激发创造

为知识库补全嵌入多模态关系数据

该研究提出了一种使用多种神经编码器的多模态知识库嵌入方法，将它们与现有关系模型相结合，学习实体和多模态数据的嵌入，进而提出了一种新的多模态插值模型，用于从知识库中的信息生成丢失的多模态值，并通过用户研究评估了其生成的多模态值的质量。

Sep, 2018

推文的多模态实体链接

本文探讨多模态实体链接的任务，提出了一种方法来构建一个完全注释的 Twitter 数据集，同时提出了一种同时学习文本和视觉内容的方法来构建一个实体和言及的表征，并在 Twitter 数据集上验证了该方法的有效性，并强调在可用时，利用视觉信息的重要性。

Apr, 2021

多模态知识图谱增强实体感知图像描述

该研究提出一种构建多模态知识图谱，将视觉对象和命名实体联系起来并同时捕捉实体之间的关系在内的新方法，以帮助名实体感知图像并生成更具信息量的事件描述。

Jul, 2021

基于知识的视觉问答的跨模态检索

基于知识的视觉问答（VQA）涉及使用多模态知识库的信息检索，命名实体的多样化视觉表现使其难以识别，我们认为跨模态检索可能有助于弥合实体与其描述之间的语义差距，对单模态检索产生互补作用，通过对最近的 ViQuAE、InfoSeek 和 Encyclopedic-VQA 数据集上的实验，我们提供了经验证据。此外，我们研究了三种不同的模型微调策略：单模态、跨模态或联合训练。我们的方法结合了单模态和跨模态检索，与三个数据集上的数十亿参数模型相竞争，同时在概念上更简单、计算上更廉价。

Jan, 2024

为语言模型赋予多模态知识图谱表达

本文提出使用外部知识图谱作为存储知识，并使用密集索引来检索以提高自然语言理解模型的参数效率，并通过两项下游任务证明了学习到的实体表示的实用性。

Jun, 2022

多模态知识图谱完成的多层级融合混合变压器

本文提出了一种具有多级融合和混合变压器结构的 Multimodal Knowledge Graphs，用于解决多模态知识图谱完成任务中的问题，并在四个数据集上取得了 SOTA 性能。

May, 2022

图像对于多模态命名实体识别的角色研究

研究了多模态融合技术在多模态命名实体识别任务中的应用，通过分析不同技巧的融合效果，发现添加图片信息不总是有益的，并探究了使用字幕丰富上下文的作用。在三个社交平台数据集上的实验揭示了现有多模态模型的瓶颈，以及使用字幕的益处。

Oct, 2020

一种基于文本匹配的双向增强框架的多模态实体链接

多模态实体链接的双向增强框架 (DWE) 通过神经文本匹配将多模态信息与知识图谱中的实体进行链接，并利用维基百科描述来丰富实体的语义和减少实体之间的文本表示与知识图谱中实体的差异。

Dec, 2023

MuKEA: 基于多模态知识提取和累积的基于知识的视觉问答

本研究提出了一种用于视觉问答的多模态知识表示方法 (MuKEA)，通过明确的三元组来关联视觉对象和事实答案，从而构建视觉相关和可解释的多模态知识，该方法可以有效提高对知识的需求的数据集上的表现。

Mar, 2022

多模态知识扩展

该研究提出了一种新的基于知识蒸馏的多模态知识增强 (MKE) 框架，能够有效利用大量未标记的多模态数据，并将该框架与半监督学习机制联系起来，提出了关于多模态学生模型去噪能力的理论解释。

Mar, 2021