科学文档中被承认实体的自动提取和分类的嵌入模型评估
该研究评估使用不同嵌入模型自动提取和分类科学论文中致谢文本中的承认实体的性能,并通过 Flair NLP 框架进行命名实体识别任务。最佳准确率为 0.79,实体类型包括资助机构、授予号、个人、大学、公司和其他。此模型可用于对致谢文本进行综合分析,对自动化致谢分析领域可能具有重大贡献。
Jul, 2023
通过 WoS 数据集中的科学文献,在四个不同的学科领域(社会科学、经济学、海洋学和计算机科学)上进行了大量的致谢文本分析,在 NER 的帮助下提取了来自不同类型机构的被致谢实体,发现各个实体的分布模式存在着巨大的差异,并与不同的科学领域相关。
Oct, 2022
本文通过在任务导向的对话系统中评估经过修改的最新神经网络架构的性能,研究了从文本、字符特征和外部语料库中训练的词嵌入的使用方式,并探讨了前一个话语作为附加特征的不同组合,以及在添加自动翻译的英语 - 翻译和英语 - 转录版本到英语数据集后的实验重复性。
Dec, 2018
通过在 Apache Spark 之上重新实现 Bi-LSTM-CNN-Char 深度学习架构,我们提出了一个单可训练的命名实体识别(NER)模型,该模型在七个公共生物医学基准测试中获得了新的最优结果,而不使用像 BERT 这样的重型上下文嵌入。该模型在生产级别代码库中作为开源 Spark NLP 库的一部分免费提供,并且可以扩展以支持其他人类语言,而不需要更改代码。
Nov, 2020
NanoNER 是基于本体知识和远程监督学习的专业领域命名实体识别模型,在 Nano 生物学领域检测先前已知实体的识别准确性为 0.98,并展示了发现新实体的能力(精确度为 0.77 至 0.81),该方法对外部资源的依赖性和 30% 的识别减弱引发的重新发现能力得到了验证。该研究为未来专业领域命名实体识别研究提供了有价值的方法和重要发现,并能推广到其他专业领域,并减少人力资源占用。
Jan, 2024
本文介绍了利用命名实体提取技术和双向 LSTM 模型结合 Flair 嵌入对印度法院文本进行标注的实验,并公开了 BIO 格式的数据集。
Jun, 2023
本文提出了一种集成多种模型的混合方法,以解决生物医学实体识别中的局限性,并在 i2b2/2010 数据集上评估,得到了 90.11 的 F1 分数。
Dec, 2023
本文主要研究了最新的自然语言处理技术中,神经网络和语言模型在命名实体识别和关系抽取方面的应用以及它们在训练过程中面临的一些挑战。我们发现,预训练的语言模型对发现未曾见过的命名实体表现良好,但对于未曾见过的关系则有待加强,因此模型的理解能力仍存在提升空间。
Jun, 2022
使用 BERT 和 transformer 层的简单和有效的 Named Entity Recognition 方法在计算机科学和生物医学领域的三个基准数据集上优于当前最先进技术,无需外部资源或特定数据增强。
Mar, 2022
本报告提出了一种基于条件随机场层和双向 LSTM 层的神经网络体系结构,其中嵌入向量(Glove,BERT)的融合输入被用来增强模型的泛化能力,还引入了一个分类模型来分离句子并对弱类和强类进行优化以提高 Named Entity Recognition 任务的性能。经实验证明,该方法显著提高了弱类的表现结果,并且只使用了非常少量的数据集。
Mar, 2020