图像对于多模态命名实体识别的角色研究
本文针对 Tweet 这类多模态数据,提出一种能够动态对齐图像和文本顺序,实现多级跨模态学习,以提高命名实体识别(MNER)的文本表示的新方法。实验结果及详细分析表明了模型的优势。
May, 2023
本研究提出 Multimodal Named Entity Recognition (MNER) 任务,针对用户生成的显式短文本和图像(如 Snapchat 详情)创建了一个新的数据集 SnapCaptions,并利用最先进的 Bi-LSTM 基于词语 / 字符的 NER 模型和深度图像网络结合通用模态注意力模块实现 MNER 任务,成功的通过利用提供的视觉上下文背景比文本 NER 模型具有更佳的性能表现。
Feb, 2018
本文介绍了一项新模型 2M-NER,通过对比学习对齐文本和图像表示,并整合多模态合作模块,从而有效地描述了两种模态之间的交互,实现了在多语言和多模态 NER 任务中 F1 得分最高的结果。
Apr, 2024
本文在 Twitter 和 Instagram 等社交媒体大规模爆炸的情况下,探索了基于多媒体发布中关于实体识别的问题。我们提出了一种端到端模型,学习了文本和图像的联合表示。模型扩展了多维自我关注技术,其中现在图像有助于增强单词之间的关系。实验表明,我们的模型能够更精确地捕捉文本和视觉语境,实现了 Twitter 多模式命名实体识别数据集的最新结果。
Apr, 2019
提出一种结合不确定性评估的多模态命名实体识别框架,该算法模拟每种形式的分布并将它们融合成统一分布,以促进预测准确性和可信度。同时提出了一种利用大型预训练基础模型的高效融合方法,实验表明该方法优于基准并实现了新的最先进性能。
Jun, 2023
本文提出了 MoRe 框架,使用多模态检索方法,结合文本和图像信息进行命名实体识别和关系抽取,并使用 Mixture of Experts 模块以获得最终决策。在实验中,MoRe 模型达到了四个多模态实体识别数据集和一个多模态关系抽取数据集的最佳性能,证明了结合文本和视觉提示在这些任务中对提高性能具有实际意义。
Dec, 2022
本文围绕多模态虚假新闻检测问题,提出了一种新的提取多模态线索的框架,该框架能够充分地考虑图像文本的三种关系,并在实验证明其优于现有文献的方法。
Aug, 2021
本文介绍了一种文本 - 图像关系传播的方法,将其集成到多模态 BERT 模型中,通过使用软或硬门选择视觉线索,并提出了一种多任务学习算法,实现对多模态命名实体识别数据集的训练,最终在该数据集上实现了最先进的性能。
Feb, 2021
本文提出了一个通用的多模态模型融合框架,以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合,以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。
Oct, 2020
本文提出了一种基于 Flat Multi-modal Interaction Transformer 的多模态命名实体识别方法,通过新颖的相对位置编码匹配不同的模式,以及通过实体边界检测作为辅助任务减轻视觉偏见,实现了对社交媒体帖子中的文本和图片进行 NLP 任务的高效准确识别,取得了业界新的最佳性能表现。
Aug, 2022