利用多任务神经网络模拟噪声以识别社交媒体中的命名实体

ACLJun, 2019

利用多任务神经网络模拟噪声以识别社交媒体中的命名实体

Modeling Noisiness to Recognize Named Entities using Multitask Neural Networks on Social Media

Gustavo Aguilar, A. Pastor López-Monroy, Fabio A. González, Thamar Solorio

TL;DR本文提出两种利用字符级音韵、词嵌入和词性标注等特征解决社交媒体文本处理困难的模型，比现有技术在噪声环境下的表现更好， F1 得分比之前提高了 2.45% 和 3.69%。

Abstract

Recognizing named entities in a document is a key task in many NLP applications. Although current state-of-the-art approaches to this task reach a high performance on clean text (e.g. newswire genres), those algorithms dramatically degrade when they are moved to noisy environments such

named entities nlp applications social media domains blstm crf

发现论文，激发创造

社交媒体数据中的命名实体识别多任务方法

提出了一种新的多任务方法，通过使用 NE 分段及精细 NE 分类的主要任务和更一般的辅助任务，利用多任务神经网络构架来学习更高阶特征表示，以传统的 CRF 分类器和神经网络结合的方式来解决 Twitter 和分类不一致的问题。

Jun, 2019

用神经半马尔可夫条件随机场进行鲁棒的基于字符的词性标注

本文提出了一种基于字符级别的新型端到端模型，不需要分词器，采用半隐马尔可夫条件随机场和神经网络的结合，证明了其在多语言环境和存在嘈杂的 token 边界下的高效性。在嘈杂的英语词性标注基准数据集上，我们的模型明显优于同类模型，并和现有技术方法取得了一致的表现。

Aug, 2018

短社交媒体帖子的多模态实体识别

本研究提出 Multimodal Named Entity Recognition (MNER) 任务，针对用户生成的显式短文本和图像（如 Snapchat 详情）创建了一个新的数据集 SnapCaptions，并利用最先进的 Bi-LSTM 基于词语 / 字符的 NER 模型和深度图像网络结合通用模态注意力模块实现 MNER 任务，成功的通过利用提供的视觉上下文背景比文本 NER 模型具有更佳的性能表现。

Feb, 2018

高度不平衡数据下适应性命名实体识别

本报告提出了一种基于条件随机场层和双向 LSTM 层的神经网络体系结构，其中嵌入向量（Glove，BERT）的融合输入被用来增强模型的泛化能力，还引入了一个分类模型来分离句子并对弱类和强类进行优化以提高 Named Entity Recognition 任务的性能。经实验证明，该方法显著提高了弱类的表现结果，并且只使用了非常少量的数据集。

Mar, 2020

文本转语音中的非标准越南语词语检测和规范化

本文提出了一种新的两阶段文本标准化方法解决语音合成中的 NSWs（数字，日期，范围，分数，缩写，URL，电子邮件，哈希标签和联系人名字）语义歧义和发音问题。第一个阶段使用基于模型的标注器检测 NSWs，第二个阶段使用基于正向词典的最大匹配算法将哈希标签，电子邮件地址和联系人名字等 NSWs 拆分为发音形式。实验结果表明，该方法的错误率较低，达到 6.67％。

Sep, 2022

双向 LSTM-CNN 命名实体识别

本文提出了一种新颖的神经网络模型，利用混合双向 LSTM 和 CNN 架构自动检测单词和字符级特征，并提出了一种将部分词典匹配编码到神经网络中的方法。经过广泛评估，使用两个来自公开资源的词典，该系统在 CoNLL-2003 数据集上达到 91.62 的 F1 分数，在 OntoNotes 上达到 86.28 的 F1 分数，超过了其他采用重度特征工程、专有词典和丰富的实体链接信息的系统。

Nov, 2015

双向 LSTM-CNNs-CRF 的端到端序列标注

本文提出了一种新颖的神经网络体系结构，该体系结构利用了双向 LSTM，CNN 和 CRF 的组合，自动地从单词和字符级别表示中受益。我们的系统是真正的端到端的，不需要特征工程或数据预处理，因此适用于广泛的序列标注任务。我们在两个数据集上对我们的系统进行了评估，即 Penn Treebank WSJ 语料库用于词性标注和 CoNLL 2003 语料库用于命名实体识别。我们在这两个数据集上获得了最先进的性能 - 词性标注的准确率为 97.55％，命名实体识别的 F1 值为 91.21％。

Mar, 2016

跨语言、字符级别的低资源命名实体识别的神经条件随机场

通过字符级神经 CRF 模型进行跨多个语言的命名实体识别的迁移学习，使得在资源丰富和资源匮乏的语言中都能提高 F1 分数，并在基线上提升 9.8 个点。

Apr, 2024

命名实体识别的神经网络结构

本文介绍基于双向 LSTM 和条件随机场，以及基于转移的方法的两种新的神经网络模型，这些模型不依赖于领域特定的知识和语言。通过使用监督语料库和未标注语料库，字符表示和无监督的学习表示，这些模型在四种语言中实现了名词实体识别的最先进性能。

Mar, 2016

探索使用词性标注嵌入的 Bi-LSTM 和 CRF 在印尼命名实体标记中的应用

本文使用深度学习中的长短时记忆模型和条件随机场模型，通过使用 8400 句训练语料和 97 句测试语料，研究了词性嵌入和模型结构对印尼命名实体识别的影响。结果表明，使用词性嵌入作为额外输入有助于提高识别性能，但 Softmax 和 CRF 两种模型结构都存在命名实体分类的弱点。

Sep, 2020