运用语义增强的方式进行社交媒体文本的命名实体识别

EMNLPOct, 2020

运用语义增强的方式进行社交媒体文本的命名实体识别

Named Entity Recognition for Social Media Texts with Semantic Augmentation

Yuyang Nie, Yuanhe Tian, Xiang Wan, Yan Song, Bo Dai

TL;DR在本文中，我们提出了一种基于神经网络的命名实体识别方法，它能够同时考虑本地文本信息和通过对大规模语料库进行语义扩充所获得的信息，并且采用注意力机制和门控机制来编码和聚合这些信息，从而在三个从英文和中文社交媒体平台收集的基准数据集上展现出了明显的优越性。

Abstract

Existing approaches for named entity recognition suffer from data sparsity problems when conducted on short and informal texts, especially user-generated social media content. →

named entity recognition social media semantic augmentation neural network pre-trained word embeddings

发现论文，激发创造

通过搜索引擎增强提高中文命名实体识别

本研究旨在提出一种基于外部知识语义增强的神经网络方法，通过多通道语义融合模型结合检索自搜索引擎的外部相关文本，对中文命名实体识别进行研究，实验证明该方法在正式和社交媒体语境下四个命名实体数据集中均取得了较好的效果。

Oct, 2022

基于多特征的语义增强网络在威胁情报中的命名实体识别应用

提出一种语义增强方法，该方法结合了不同的语言特征以识别和分类非结构化文本中的网络安全名称和概念，实验证明该方法有效。

Jul, 2022

短社交媒体帖子的多模态实体识别

本研究提出 Multimodal Named Entity Recognition (MNER) 任务，针对用户生成的显式短文本和图像（如 Snapchat 详情）创建了一个新的数据集 SnapCaptions，并利用最先进的 Bi-LSTM 基于词语 / 字符的 NER 模型和深度图像网络结合通用模态注意力模块实现 MNER 任务，成功的通过利用提供的视觉上下文背景比文本 NER 模型具有更佳的性能表现。

Feb, 2018

社交媒体数据中的命名实体识别多任务方法

提出了一种新的多任务方法，通过使用 NE 分段及精细 NE 分类的主要任务和更一般的辅助任务，利用多任务神经网络构架来学习更高阶特征表示，以传统的 CRF 分类器和神经网络结合的方式来解决 Twitter 和分类不一致的问题。

Jun, 2019

选择与增强：增强型密集检索知识图增强

使用多任务框架，将文本描述与知识图谱实体相关联，以改进知识图谱的性能，并通过检索模型选择富有信息或高度相关的文本描述来增强实体。实验结果显示，与传统的卷积神经网络相比，使用文本增强的知识图谱方法在链接预测中的 Mean Reciprocal Rank (MRR) 和 Hits@10 分别提高了 5.5% 和 3.5%。

Jul, 2023

命名实体识别简单数据增强分析

本研究针对基于标记序列的命名实体识别任务，设计并比较了数据增强技术的效果。通过在生物医学和材料科学领域的两个数据集（i2b2-2010 和 MaSciP）上进行实验，我们表明简单的增强技术可以提高循环模型和基于 Transformer 模型的性能，尤其是对于小训练集的情况。

Oct, 2020

利用句法信息的关键实体识别自适应集成提升

通过注意力集成和提出的键值内存网络、语法注意力和门机制来利用不同类型的句法信息，提高了命名实体识别，并在六个英语和中文基准数据集上实验。

Oct, 2020

利用视觉上下文辅助多模式命名实体识别中的文本内表示

本文在 Twitter 和 Instagram 等社交媒体大规模爆炸的情况下，探索了基于多媒体发布中关于实体识别的问题。我们提出了一种端到端模型，学习了文本和图像的联合表示。模型扩展了多维自我关注技术，其中现在图像有助于增强单词之间的关系。实验表明，我们的模型能够更精确地捕捉文本和视觉语境，实现了 Twitter 多模式命名实体识别数据集的最新结果。

Apr, 2019

使用词向量的半监督学习在 Twitter 上进行土耳其语命名实体识别

本文基于神经网络的半监督学习方法，利用非监督学习获取的词向量及专门为微博文本设计的语言无关特征，成功生成一种识别土耳其微博文本中命名实体的系统，并在推特信息上表现出较好的 F-score 性能，相比之前提出的 NER 系统有所提升。该方法没有使用任何特定的语言特征，因此可以轻松地适用于其他形态丰富的语言的微博文本。

Oct, 2018

提升语义相关性，用于中文社交媒体文本摘要的序列到序列学习

本文通过引入一种基于语义相关性的神经模型，旨在提高汉语社交媒体摘要中源文本和摘要之间的语义相关性，使用编码器 - 解码器框架，通过最大化表示之间的相似性得出结论，实验表明，该模型在社交媒体语料库上优于基线系统。

Jun, 2017