注入词库的短语嵌入用于命名实体识别
提出了一种使用词汇资源的描述和分布式语义语料的相关信息的简单方法,以更好地初始化关系模型的训练,在 WordNet 数据集上表现出了显着的最新性能。
May, 2016
本文介绍一种使用神经网络方法进行实体识别的系统,主要聚焦于研究如何在建模时引入词汇特征,并通过低维向量空间嵌入和高效训练得到最佳结果,最终在公开数据集上取得了较高的 F1 分数。
Jun, 2018
本文通过在任务导向的对话系统中评估经过修改的最新神经网络架构的性能,研究了从文本、字符特征和外部语料库中训练的词嵌入的使用方式,并探讨了前一个话语作为附加特征的不同组合,以及在添加自动翻译的英语 - 翻译和英语 - 转录版本到英语数据集后的实验重复性。
Dec, 2018
本文提出了一种基于预训练词嵌入的全无监督命名实体识别模型,使用高斯隐马尔可夫模型和深度自编码高斯混合模型进行实体跨度检测和类型预测,并基于强化学习设计实例选择器,通过神经网络消除杂乱注释,实现了无需使用任何标注词典或语料库,表现出色。
Aug, 2019
本文提出了一种新颖的神经网络模型,利用混合双向 LSTM 和 CNN 架构自动检测单词和字符级特征,并提出了一种将部分词典匹配编码到神经网络中的方法。经过广泛评估,使用两个来自公开资源的词典,该系统在 CoNLL-2003 数据集上达到 91.62 的 F1 分数,在 OntoNotes 上达到 86.28 的 F1 分数,超过了其他采用重度特征工程、专有词典和丰富的实体链接信息的系统。
Nov, 2015
本研究利用短语嵌入搜索构建高覆盖率的实体词典,并利用其生成具有高覆盖率的命名实体识别(NER)数据集。通过利用字典中候选短语与目标实体类型之间的嵌入距离来减少噪声,实现了弱监督 NER 模型的改进。在 6 个 NER 基准测试中,与当前弱监督 NER 模型相比,HighGEN 表现出更为优异的性能。
Oct, 2022
本文研究了在大型语料库上联合训练单词和实体嵌入的方法以及它们在各种自然语言处理任务上的表现,发现仅仅在注释语料库上训练流行的单词嵌入模型无法创建具有可接受性能的实体嵌入,而我们的实体共现图嵌入方法能够恢复性能。
Feb, 2019
本文介绍了一种基于 CharWNN 深度神经网络的自适应特征命名实体识别系统,使用自动学习特征实现多语种 NER 任务,证明了字符嵌入在 NER 中的有效性。试验结果表明,CharWNN 的性能优于现有最先进的系统。
May, 2015
本文介绍了使用大量的未标记数据和几个种子示例,通过自动构建的方法从而实现命名实体识别的字典。通过使用规范相关分析法获取候选短语的低维嵌入,然后分类这些短语使用少量的带标签的实例。本文的方法在疾病和病毒 NER 方面实现了 16.5%和 11.3%的 F-1 得分改善。我们还展示了将候选短语嵌入添加为序列标记器中的特征与使用单词嵌入相比,可以获得更好的性能。
Apr, 2015
本文提出一种将词嵌入、词表嵌入和注意力机制集成到卷积神经网络中进行情感分析的新方法,该方法在 SemEval'16 任务 4 数据集和 Stanford 情感树库上得到了比现有最先进系统更好的结果。
Oct, 2016