细粒度的冠状病毒新闻命名实体

Apr, 2024

Fine-Grained Named Entities for Corona News

Sefika Efeoglu, Adrian Paschke

TL;DR本研究提出了一个数据标注流程，从包括普通和领域特定实体的冠状病毒新闻文章中生成训练数据，并在领域专家手动标注的测试句子上评估训练模型的性能。

Abstract

Information resources such as newspapers have produced unstructured text data in various languages related to the corona outbreak since December 2019. Analyzing these unstructured texts is time-consuming without representing them in a →

information extraction corona outbreak structured format annotation pipeline named entity recognition

发现论文，激发创造

一个用于命名实体识别的芬兰新闻语料库

本文提供一份芬兰新闻文章语料库，其中包含 953 篇来自 Digitoday 技术新闻平台的文章（共 193742 个单词标记），其中涵盖六种命名实体类别；并对该语料库在两个测试集中使用基于规则与两种深度学习系统进行了基础实验。

Aug, 2019

使用 Spark NLP 优化 COVID-19 研究的临床文档理解

该研究构建了一个临床文本挖掘系统，利用命名实体识别和深度学习模型优化了现有技术，能够从 COVID-19 研究数据集中提取潜在趋势和洞见，支持分布式集群计算以及新增实体类型或人类语言训练模型无需编程。

Dec, 2020

网络安全实体抽取的自动标注

本文介绍了一种利用结构化数据来自动标注文本的精确方法，并提供一个标注了网络安全实体的语料库。我们使用平均感知器上的最大熵模型对我们的语料库进行训练，训练时间不到 17 秒，并实现了接近完美的精确度、召回率和准确性。

Aug, 2013

用于调查性新闻的多语言信息提取流水线

本文介绍了一种信息提取工具，可以自动处理大规模无结构文本数据，支持多语言文档的全文、元数据和实体的提取，重点支持三个主要因素以服务于跨国界新闻调查，最终实现了数据集的快速探索以及潜在故事的挖掘。

Sep, 2018

一个用于交通和工业事件细粒度命名实体识别和关系抽取的德语语料库

该研究描述了一组带有细粒度地理实体注释的德语文档，支持训练和评估命名实体识别算法和 N - 元关系提取系统，以分析交通相关和工业相关的事件。

Apr, 2020

构建并评估通用命名实体识别英语语料库

本文介绍了使用 Universal Named Entity 框架来自动生成注释语料库的应用。通过使用从维基百科数据和元数据以及 DBpedia 信息中提取出来的工作流程，我们生成了一个英语数据集并进行了描述和评估。此外，我们进行了一系列实验，以在精确度，召回率和 F1-measure 方面改善注释。最终数据集可供使用，建立的工作流程可应用于任何具有现有维基百科和 DBpedia 的语言。作为未来研究的一部分，我们打算继续改进注释过程并将其扩展到其他语言。

Dec, 2022

口语文本中的实体识别

我们研究了基于 BERT 模型的多种训练策略，旨在从口语化文本中识别出医疗领域的症状，并通过一系列实验发现了与这些训练策略相关的模型行为模式，提出了有效识别口语化文本中实体的训练策略设计原则。

Jan, 2024

推文中的命名实体识别与链接分析

本文讨论了对于不规则、嘈杂、依赖上下文及动态性的推文（一种微博形式），运用自然语言处理技术进行挖掘和智能信息访问的挑战，重点关注了从推文中提取实体并进行实体消歧的任务，介绍了一个新的 Twitter 实体消歧数据集，并对多个最先进的 Named Entity Recognition & Disambiguation 模型进行了实证分析。

Oct, 2014

越南 COVID-19 命名实体识别

本文介绍了第一个为越南语手工注释的 COVID-19 领域特定数据集，并用预训练的语言模型 Fine-tuning 进行了实验，发现自动越南语单词分割有助于提高实体识别结果，与多语种模型 XLM-R 相比，越南语单语模型 PhoBERT 表现更好。

Apr, 2021

大规模新闻文章中突出实体的检测

通过微调预训练的 Transformer 模型，利用实体标签或上下文实体表示，探索高效和有效的显著性实体检测方法。实验证明，这些直接的技术在不同规模和显著性定义的数据集上明显优于先前的工作。还研究了知识蒸馏技术，以有效地降低这些模型的计算成本，而不影响其准确性。最后，进行了广泛的分析和切除实验以描述所提出模型的行为。

May, 2024