利用锚文本信息预测维基百科链接

SIGIRMay, 2021

利用锚文本信息预测维基百科链接

Predicting Links on Wikipedia with Anchor Text Information

Robin Brochier, Frédéric Béchet

TL;DR本文针对维基百科上的网页结构，研究了基于锚文本信息的链接预测的困难性和算法，提出了合适的评估抽样方法及基准模型.

Abstract

wikipedia, the largest open-collaborative online encyclopedia, is a corpus of documents bound together by internal hyperlinks. These links form the building blocks of a large network whose structure contains impo

wikipedia hyperlinks link prediction anchor text algorithm

发现论文，激发创造

Anchor Prediction: 互联网链接的自动优化

通过预测专业网页链接的目标页面中与来源上下文最相关的部分，可以更加有效地帮助读者在链接网页中发现信息。我们引入了作者锚点数据集和读者锚点评估集来分析这个问题，并使用 T5-based 排名方法作为性能基准。

May, 2023

锚点预测：一种基于主题建模的方法

本文提出了一种上下文相关的关系主题模型 (CRTM)，可用于自动识别源文档中的锚点，无需依赖先前提到的字典或任何外部知识图谱，并可以自动建议链接，展示了该方法在英语、意大利语和德语的维基百科语料库上的实用性。

May, 2022

维基百科文章的链接预测作为自然语言推理任务

本文介绍了一种以自然语言推理为基础的链接预测方法，将链接预测任务应用于维基百科文章，并在 Data Science and Advanced Analytics 2023 竞赛中取得了优异成绩。

Aug, 2023

基于文本的维基百科文章链接预测方法

本文介绍了我们在 DSAA 2023 挑战中针对维基百科文章的链接预测进行的工作。我们使用从文本中提取的词性标注特征，利用传统的机器学习模型训练分类模型，以预测两个节点之间是否存在链接。然后，我们使用这些标注进行了各种机器学习模型的测试。我们获得了 0.99999 的 F1 分数，并在竞赛中获得第 7 名。我们的源代码可以公开访问该链接。

Sep, 2023

从人类导航痕迹中挖掘缺失的超链接：以维基百科为例的案例研究

通过使用基于 Wikipedia 导航路径的人类计算游戏数据集，我们提出了一种新方法以识别缺失的超链接，并通过排名候选人来增强维基百科的导航性能。

Mar, 2015

信息检索的预训练：超链接是否完全被开发？

本文提出了一种基于超链接进行预训练的方法，并将其应用于信息检索（IR）任务中，实验结果表明此方法在大规模的 IR 和问答数据集上具有优越性。

Sep, 2022

通过利用未标注文档提高实体链接性能

本研究提出一种基于未标记的自然文本和维基百科的无监督学习方法，探索实体链接，使用潜在变量的主题模型学习本地语境和文档中其他实体的相互衔接，结果表明该方法优于现有的有监督的系统，应该是一种普遍适用于自然语言处理领域的方法。

Jun, 2019

事件链接：将事件提及与维基百科对接

本研究定义了事件关联，这是一种新的自然语言理解任务，尝试将文章中出现的事件与最相关的维基百科页面链接起来，并贡献了一份数据集用于此任务，同时对两个最新的实体链接模型进行重新训练和评估，并提出了一种用于此任务的竞争性系统 EVELINK。

Dec, 2021

通过搜索维基百科句子进行查询的实体链接

本研究提供了一种简单而有效的方法，利用维基百科文章中与查询类似的句子，并直接使用其中人工注释的实体作为查询的候选实体，然后使用一系列特征来排名，包括概率、上下文匹配、词嵌入以及候选实体及其相关实体之间的相关性。通过该方法我们可以在实体链接基准测试中取得更好的结果。

Apr, 2017

文本数据锚点的深度分析

本文首次对 Anchors 方法进行了理论分析，针对文本分类算法，使用 TF-IDF 向量化步骤，将词语替换为固定的词汇表外标记，探究了基于规则的解释性方法在不同模型上的行为，并通过对神经网络的实证研究显示了 Anchors 选择模型输入的局部梯度相对应的词语。

May, 2022