利用视觉上下文辅助多模式命名实体识别中的文本内表示

Apr, 2019

利用视觉上下文辅助多模式命名实体识别中的文本内表示

Aiding Intra-Text Representations with Visual Context for Multimodal Named Entity Recognition

Omer Arshad, Ignazio Gallo, Shah Nawaz, Alessandro Calefati

TL;DR本文在 Twitter 和 Instagram 等社交媒体大规模爆炸的情况下，探索了基于多媒体发布中关于实体识别的问题。我们提出了一种端到端模型，学习了文本和图像的联合表示。模型扩展了多维自我关注技术，其中现在图像有助于增强单词之间的关系。实验表明，我们的模型能够更精确地捕捉文本和视觉语境，实现了 Twitter 多模式命名实体识别数据集的最新结果。

Abstract

With massive explosion of social media such as Twitter and Instagram, people daily share billions of multimedia posts, containing images and text

social media multimedia posts named entity recognition text image

发现论文，激发创造

图像对于多模态命名实体识别的角色研究

研究了多模态融合技术在多模态命名实体识别任务中的应用，通过分析不同技巧的融合效果，发现添加图片信息不总是有益的，并探究了使用字幕丰富上下文的作用。在三个社交平台数据集上的实验揭示了现有多模态模型的瓶颈，以及使用字幕的益处。

Oct, 2020

一种新的多模态命名实体识别框架，具有多级对齐

本文针对 Tweet 这类多模态数据，提出一种能够动态对齐图像和文本顺序，实现多级跨模态学习，以提高命名实体识别（MNER）的文本表示的新方法。实验结果及详细分析表明了模型的优势。

May, 2023

短社交媒体帖子的多模态实体识别

本研究提出 Multimodal Named Entity Recognition (MNER) 任务，针对用户生成的显式短文本和图像（如 Snapchat 详情）创建了一个新的数据集 SnapCaptions，并利用最先进的 Bi-LSTM 基于词语 / 字符的 NER 模型和深度图像网络结合通用模态注意力模块实现 MNER 任务，成功的通过利用提供的视觉上下文背景比文本 NER 模型具有更佳的性能表现。

Feb, 2018

推文的多模态实体链接

本文探讨多模态实体链接的任务，提出了一种方法来构建一个完全注释的 Twitter 数据集，同时提出了一种同时学习文本和视觉内容的方法来构建一个实体和言及的表征，并在 Twitter 数据集上验证了该方法的有效性，并强调在可用时，利用视觉信息的重要性。

Apr, 2021

基于视觉语境的多模态词表示学习

本研究提出了一种同时利用文本和视觉上下文以学习多模态词嵌入的端到端方法，通过将视觉上下文元素整合到多模态 skip-gram 模型中，探索了何种因素可以作为视觉上下文，并进行了实验和分析。

Nov, 2017

基于网络数据的自监督学习在多模态检索中的应用

通过利用 Web 和 Social Media 数据，本文提出一种利用多模态图像和文本嵌入的自监督学习方法，在不需要人工注释的情况下学习强大的特征，并将文本领域学到的语义知识转移至视觉模型用于语义图像检索任务。研究分析了五种不同的文本嵌入方法，表明利用 Web 和 Social Media 数据学习的嵌入具有与监督方法相当的性能，且在训练目标数据时优于最先进方法。最后，介绍了 InstaCities1M 数据集，并演示了如何利用该数据集进行语义多模态图像检索。

Jan, 2019

从网络数据中通过深度语义嵌入学习学习

本研究提出利用网络和社交媒体数据来学习多模态图像和文本嵌入，旨在将在文本领域中学到的语义知识转移至用于语义图像检索的视觉模型。研究结果表明，利用带有相关文本的图像进行无监督学习的流程能够在三个基准测试中学习五种不同的文本嵌入，并在面向文本的图像检索任务中表现出与受监督方法竞争性的性能。在目标数据中训练时，我们在 MIRFlickr 数据集中明显优于现有技术。进一步，我们展示了如何使用学习到的嵌入执行语义多模态图像检索，超越了传统的实例级检索问题。最后，我们提出了一个新的数据集（InstaCities1M），由 Instagram 图像及其相关文本组成，可用于公平比较图像 - 文本嵌入方法。

Aug, 2018

跨媒体关键词预测：一个统一的框架，配备多模态多头注意力和图像措辞

本文研究了使用多模态多头自注意力机制和图像文字化技术，提高社交媒体帖子中关键词预测的效果，并在 Twitter 上的大规模数据集中获得了优异的表现。

Nov, 2020

运用语义增强的方式进行社交媒体文本的命名实体识别

在本文中，我们提出了一种基于神经网络的命名实体识别方法，它能够同时考虑本地文本信息和通过对大规模语料库进行语义扩充所获得的信息，并且采用注意力机制和门控机制来编码和聚合这些信息，从而在三个从英文和中文社交媒体平台收集的基准数据集上展现出了明显的优越性。

Oct, 2020

整合文字和图像：在 Instagram 帖子中确定多模态文档意图

通过模型化文本和图像之间的复杂关系，可以计算出像 Instagram 帖子中的作者意图。本文介绍了一个包含 1299 个 Instagram 帖子的多模态数据集，以确定帖子图像标题对之间的意图、上下文关系和符号关系。同时，构建了一个多模态分类器，通过同时使用文本和图像，相较于只使用图像模态，将意图检测的准确性提高了 9.6％。这些结果表明，非相交意义乘法在计算作者意图时具有普遍性。该数据集为研究文本和图像组合产生的丰富含义提供了新的资源。

Apr, 2019