维基百科实体排名

Nov, 2007

Entity Ranking in Wikipedia

Anne-Marie Vercoustre, James A. Thom, Jovan Pehcevski

TL;DR本研究利用分类、链接结构以及实体示例等方法，基于 Wikipedia 文献集合，提出了一种较为有效的实体排名系统，并发现该系统可以显著提高检索效果。

Abstract

The traditional entity extraction problem lies in the ability of extracting named entities from plain text using natural language processing techniques and intensive training from large document collections. Exam

entity extraction named entities information retrieval wikipedia entity ranking

发现论文，激发创造

通过搜索维基百科句子进行查询的实体链接

本研究提供了一种简单而有效的方法，利用维基百科文章中与查询类似的句子，并直接使用其中人工注释的实体作为查询的候选实体，然后使用一系列特征来排名，包括概率、上下文匹配、词嵌入以及候选实体及其相关实体之间的相关性。通过该方法我们可以在实体链接基准测试中取得更好的结果。

Apr, 2017

关系抽取：综述

本文介绍了关系抽取（RE）的若干重要的监督、半监督和无监督技术，以及开放信息抽取（OIE）和远程监督的范例，最后描述了近期 RE 技术和未来研究方向。这篇综述对于领域的新手、研究人员和实践者都有用。

Dec, 2017

近期命名实体识别研究进展综述

命名实体识别（NER）旨在从文本中提取命名真实世界对象并确定它们的类型，本文首先概述了最近流行的方法，然后探讨了其他调查中较少涉及的基于图和变换器的方法，包括大型语言模型（LLMs）。其次，重点介绍了适用于稀缺注释数据集的方法。第三，我们评估了主要 NER 实现在不同类型的数据集上的性能，并对从未共同考虑过的算法进行了深入比较。我们的实验揭示了数据集特征如何影响我们比较的方法的行为。

Jan, 2024

实体中心信息抽取的神经网络方法

研究自然语言处理的 NLP 和人工智能领域对实体理解的影响，提出了基于实体概念的方法，并介绍了如何在实体链接任务中使用这种方法。通过核指代文簇难题进行了实验研究，分析了知识库实体集成到文本中的方法并从时间视角分析了实体的演变。

Apr, 2023

仅需要你一点帮助就可以发现实体

论文提出了在缺乏背景知识和长尾实体的情况下，通过自动化生成实体出现位置的候选项并结合用户反馈来提高实体链接的准确性的方法。选择了基于梯度互缠的多样化和文本相关性方法作为生成候选项的方法，并在 FACC 数据集上进行了广泛的实验，展示了该方法的有效性。

Oct, 2018

利用维基百科实体类型映射提高多语言命名实体识别性能

使用维基百科作为开放知识库来改善多语言的命名实体识别系统，该方法的核心是构建高准确性、高覆盖高的跨语言维基百科实体类型映射，这些映射是基于弱标注数据构建的，可以扩展到新语言上。作者研发出多种方法来改进命名实体识别系统，实验证明这些方法在有限的训练数据和新领域下特别有效（F1 分数提高达 18.3）。

Jul, 2017

构建并评估通用命名实体识别英语语料库

本文介绍了使用 Universal Named Entity 框架来自动生成注释语料库的应用。通过使用从维基百科数据和元数据以及 DBpedia 信息中提取出来的工作流程，我们生成了一个英语数据集并进行了描述和评估。此外，我们进行了一系列实验，以在精确度，召回率和 F1-measure 方面改善注释。最终数据集可供使用，建立的工作流程可应用于任何具有现有维基百科和 DBpedia 的语言。作为未来研究的一部分，我们打算继续改进注释过程并将其扩展到其他语言。

Dec, 2022

实体标识符：一种基于自然文本解析的实体关系抽取框架

本文提出了一种使用自然语言处理技术来从需求描述中提取结构化信息，使得可以自动完成 CRUD 类代码的生成的方法，并介绍了相应的实体识别、关系提取和实体树模型技术，以及评估这种方法效果的数据集。

Jul, 2023

面向本体的信息检索通用向量空间模型

本文提出了一种基于命名实体和关键词的广义向量空间模型，考虑了命名实体的不同本体特征，并使用实体类别来表示 Wh - 查询中被忽略的潜在信息。作者在 TREC 数据集上实现和测试了所提出的模型。

Jul, 2018

跨多语言的全球实体排名

使用 Wikipedia 和 Freebase 知识库，我们构建了一个全球长尾实体排名模型，涵盖多种语言。我们为实体识别提出了多个特征并建立了一个模型，使用一组超过一万个标签作为基础数据集。最终系统的准确率为 75％，F1 得分为 48％。我们提供了性能评估和排名质量的经验证据，并为未来研究开放了最终排名列表。

Mar, 2017