图像对于多模态命名实体识别的角色研究

EMNLPOct, 2020

图像对于多模态命名实体识别的角色研究

Can images help recognize entities? A study of the role of images for Multimodal NER

Shuguang Chen, Gustavo Aguilar, Leonardo Neves, Thamar Solorio

TL;DR研究了多模态融合技术在多模态命名实体识别任务中的应用，通过分析不同技巧的融合效果，发现添加图片信息不总是有益的，并探究了使用字幕丰富上下文的作用。在三个社交平台数据集上的实验揭示了现有多模态模型的瓶颈，以及使用字幕的益处。

Abstract

multimodal named entity recognition (MNER) requires to bridge the gap between language understanding and visual context. While many multimodal

multimodal named entity recognition neural techniques images captions

发现论文，激发创造

一种新的多模态命名实体识别框架，具有多级对齐

本文针对 Tweet 这类多模态数据，提出一种能够动态对齐图像和文本顺序，实现多级跨模态学习，以提高命名实体识别（MNER）的文本表示的新方法。实验结果及详细分析表明了模型的优势。

May, 2023

短社交媒体帖子的多模态实体识别

本研究提出 Multimodal Named Entity Recognition (MNER) 任务，针对用户生成的显式短文本和图像（如 Snapchat 详情）创建了一个新的数据集 SnapCaptions，并利用最先进的 Bi-LSTM 基于词语 / 字符的 NER 模型和深度图像网络结合通用模态注意力模块实现 MNER 任务，成功的通过利用提供的视觉上下文背景比文本 NER 模型具有更佳的性能表现。

Feb, 2018

2M-NER：利用语言和模态融合进行多语言和多模态 NER 的对比学习

本文介绍了一项新模型 2M-NER，通过对比学习对齐文本和图像表示，并整合多模态合作模块，从而有效地描述了两种模态之间的交互，实现了在多语言和多模态 NER 任务中 F1 得分最高的结果。

Apr, 2024

利用视觉上下文辅助多模式命名实体识别中的文本内表示

本文在 Twitter 和 Instagram 等社交媒体大规模爆炸的情况下，探索了基于多媒体发布中关于实体识别的问题。我们提出了一种端到端模型，学习了文本和图像的联合表示。模型扩展了多维自我关注技术，其中现在图像有助于增强单词之间的关系。实验表明，我们的模型能够更精确地捕捉文本和视觉语境，实现了 Twitter 多模式命名实体识别数据集的最新结果。

Apr, 2019

将大型预训练模型整合到多模态命名实体识别中，采用证据融合方法

提出一种结合不确定性评估的多模态命名实体识别框架，该算法模拟每种形式的分布并将它们融合成统一分布，以促进预测准确性和可信度。同时提出了一种利用大型预训练基础模型的高效融合方法，实验表明该方法优于基准并实现了新的最先进性能。

Jun, 2023

多模态检索命名实体与关系提取

本文提出了 MoRe 框架，使用多模态检索方法，结合文本和图像信息进行命名实体识别和关系抽取，并使用 Mixture of Experts 模块以获得最终决策。在实验中，MoRe 模型达到了四个多模态实体识别数据集和一个多模态关系抽取数据集的最佳性能，证明了结合文本和视觉提示在这些任务中对提高性能具有实际意义。

Dec, 2022

利用实体增强框架融合多模态线索提高假新闻检测

本文围绕多模态虚假新闻检测问题，提出了一种新的提取多模态线索的框架，该框架能够充分地考虑图像文本的三种关系，并在实验证明其优于现有文献的方法。

Aug, 2021

基于文本图像关系传播的 BERT 模型用于多模态命名实体识别（Multimodal NER）

本文介绍了一种文本 - 图像关系传播的方法，将其集成到多模态 BERT 模型中，通过使用软或硬门选择视觉线索，并提出了一种多任务学习算法，实现对多模态命名实体识别数据集的训练，最终在该数据集上实现了最先进的性能。

Feb, 2021

融合模型用于改进视觉字幕生成

本文提出了一个通用的多模态模型融合框架，以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合，以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。

Oct, 2020

命名实体识别的平面多模互动变压器

本文提出了一种基于 Flat Multi-modal Interaction Transformer 的多模态命名实体识别方法，通过新颖的相对位置编码匹配不同的模式，以及通过实体边界检测作为辅助任务减轻视觉偏见，实现了对社交媒体帖子中的文本和图片进行 NLP 任务的高效准确识别，取得了业界新的最佳性能表现。

Aug, 2022