多模态知识库下的多模态实体标记
该研究提出了一种使用多种神经编码器的多模态知识库嵌入方法,将它们与现有关系模型相结合,学习实体和多模态数据的嵌入,进而提出了一种新的多模态插值模型,用于从知识库中的信息生成丢失的多模态值,并通过用户研究评估了其生成的多模态值的质量。
Sep, 2018
本文探讨多模态实体链接的任务,提出了一种方法来构建一个完全注释的 Twitter 数据集,同时提出了一种同时学习文本和视觉内容的方法来构建一个实体和言及的表征,并在 Twitter 数据集上验证了该方法的有效性,并强调在可用时,利用视觉信息的重要性。
Apr, 2021
该研究提出一种构建多模态知识图谱,将视觉对象和命名实体联系起来并同时捕捉实体之间的关系在内的新方法,以帮助名实体感知图像并生成更具信息量的事件描述。
Jul, 2021
基于知识的视觉问答(VQA)涉及使用多模态知识库的信息检索,命名实体的多样化视觉表现使其难以识别,我们认为跨模态检索可能有助于弥合实体与其描述之间的语义差距,对单模态检索产生互补作用,通过对最近的 ViQuAE、InfoSeek 和 Encyclopedic-VQA 数据集上的实验,我们提供了经验证据。此外,我们研究了三种不同的模型微调策略:单模态、跨模态或联合训练。我们的方法结合了单模态和跨模态检索,与三个数据集上的数十亿参数模型相竞争,同时在概念上更简单、计算上更廉价。
Jan, 2024
本文提出了一种具有多级融合和混合变压器结构的 Multimodal Knowledge Graphs,用于解决多模态知识图谱完成任务中的问题,并在四个数据集上取得了 SOTA 性能。
May, 2022
研究了多模态融合技术在多模态命名实体识别任务中的应用,通过分析不同技巧的融合效果,发现添加图片信息不总是有益的,并探究了使用字幕丰富上下文的作用。在三个社交平台数据集上的实验揭示了现有多模态模型的瓶颈,以及使用字幕的益处。
Oct, 2020
多模态实体链接的双向增强框架 (DWE) 通过神经文本匹配将多模态信息与知识图谱中的实体进行链接,并利用维基百科描述来丰富实体的语义和减少实体之间的文本表示与知识图谱中实体的差异。
Dec, 2023
本研究提出了一种用于视觉问答的多模态知识表示方法 (MuKEA),通过明确的三元组来关联视觉对象和事实答案,从而构建视觉相关和可解释的多模态知识,该方法可以有效提高对知识的需求的数据集上的表现。
Mar, 2022
该研究提出了一种新的基于知识蒸馏的多模态知识增强 (MKE) 框架,能够有效利用大量未标记的多模态数据,并将该框架与半监督学习机制联系起来,提出了关于多模态学生模型去噪能力的理论解释。
Mar, 2021