利用锚文本信息预测维基百科链接
通过预测专业网页链接的目标页面中与来源上下文最相关的部分,可以更加有效地帮助读者在链接网页中发现信息。我们引入了作者锚点数据集和读者锚点评估集来分析这个问题,并使用 T5-based 排名方法作为性能基准。
May, 2023
本文提出了一种上下文相关的关系主题模型 (CRTM),可用于自动识别源文档中的锚点,无需依赖先前提到的字典或任何外部知识图谱,并可以自动建议链接,展示了该方法在英语、意大利语和德语的维基百科语料库上的实用性。
May, 2022
本文介绍了一种以自然语言推理为基础的链接预测方法,将链接预测任务应用于维基百科文章,并在 Data Science and Advanced Analytics 2023 竞赛中取得了优异成绩。
Aug, 2023
本文介绍了我们在 DSAA 2023 挑战中针对维基百科文章的链接预测进行的工作。我们使用从文本中提取的词性标注特征,利用传统的机器学习模型训练分类模型,以预测两个节点之间是否存在链接。然后,我们使用这些标注进行了各种机器学习模型的测试。我们获得了 0.99999 的 F1 分数,并在竞赛中获得第 7 名。我们的源代码可以公开访问该链接。
Sep, 2023
通过使用基于 Wikipedia 导航路径的人类计算游戏数据集,我们提出了一种新方法以识别缺失的超链接,并通过排名候选人来增强维基百科的导航性能。
Mar, 2015
本研究提出一种基于未标记的自然文本和维基百科的无监督学习方法,探索实体链接,使用潜在变量的主题模型学习本地语境和文档中其他实体的相互衔接,结果表明该方法优于现有的有监督的系统,应该是一种普遍适用于自然语言处理领域的方法。
Jun, 2019
本研究定义了事件关联,这是一种新的自然语言理解任务,尝试将文章中出现的事件与最相关的维基百科页面链接起来,并贡献了一份数据集用于此任务,同时对两个最新的实体链接模型进行重新训练和评估,并提出了一种用于此任务的竞争性系统 EVELINK。
Dec, 2021
本研究提供了一种简单而有效的方法,利用维基百科文章中与查询类似的句子,并直接使用其中人工注释的实体作为查询的候选实体,然后使用一系列特征来排名,包括概率、上下文匹配、词嵌入以及候选实体及其相关实体之间的相关性。通过该方法我们可以在实体链接基准测试中取得更好的结果。
Apr, 2017
本文首次对 Anchors 方法进行了理论分析,针对文本分类算法,使用 TF-IDF 向量化步骤,将词语替换为固定的词汇表外标记,探究了基于规则的解释性方法在不同模型上的行为,并通过对神经网络的实证研究显示了 Anchors 选择模型输入的局部梯度相对应的词语。
May, 2022