维基百科的文本重用:内部和外部
此论文在对维基百科的四个语料库:WikiQA、SelQA、SQuAD 和 InfoQA 进行内部和外部分析后,提出了一种基于索引的方法来创建一个用于回答检索的银标准数据集,并建议更好地利用这些语料库来进行统计问答学习。
Jan, 2018
本文介绍了 Wiki-Reliability 数据集,该数据集是由标记为具有广泛内容可靠性问题的英文维基百科文章构建的,主要应用于内容可靠性预测的机器学习和信息检索算法的研究。
May, 2021
通过探索性分析和构建自动检测系统,本文旨在解决埃及阿拉伯维基百科中模板翻译问题,并利用文章元数据构建多变量机器学习分类器来自动检测这些模板翻译文章。最终,将最佳分类器 XGBoost 发布为名为 EGYPTIAN WIKIPEDIA SCANNER 的在线应用,并向研究界提供提取、过滤和标记的数据集,以便从我们的数据集和在线网络检测系统中获益。
Mar, 2024
该研究论文全面描述了如何将 Wikipedia 蕴藏的概念、关系、事实及描述提取出来并进行应用,分为四个方面:将其应用于自然语言处理、用于信息检索和信息提取、作为本体论构建的资源以及如何将其与其他结构结合创建全新的资源。此外,提及了参与此研究领域的机构、个人及其近年来的发展。
Sep, 2008
通过构建多语言模型评价维基百科文章的可读性,作者展示了该模型在 14 种语言中的零样本情况下的 80% 以上的排名准确率,并且提供了维基百科的可读性状况的第一个概述。
Jun, 2024
通过 Wikipedia 修订历史创建的 WiCoPaCo(Wikipedia 纠正和改写语料库)是一个重要的资源,它包含了人工编辑的大量文本修正和改写,对于训练、评估自动处理文本的过程以及语言研究都非常有用,本文介绍了 WiCoPaCo 的主要动机、构建方式和在法语方面的初步应用。
Feb, 2022
本文探究了如何利用 Wikipidia 概念传递查询上下文以提高对嘈杂文本的主动信息检索的性能,并提出了两种模型,利用实体链接将 Wikipedia 主题与相关性模型关联。实验结果表明,Wikipedia 概念与检索结果相关性之间存在明显信号,关联排序模型的使用可以进一步提高精度,并且使用 Wikipedia 处理查询背景语境可以消除歧义,进一步帮助主动信息检索。
Oct, 2022
本文介绍了一种将 Wikidata 语句转换为英文维基百科文章的任务转化为自然语言文本的方法,并且对输出内容进行了句子结构分析,噪声过滤以及基于词嵌入模型的句子构成关系评估。
Oct, 2022
本文提出使用维基百科作为唯一知识源来解决开放领域问题回答,提出了一种基于大二元哈希和 TF-IDF 匹配的搜索组件与训练于维基段落中检测答案的多层循环神经网络模型的结合方法,同时现有数据集的实验结果表明,这两个模块都是高度竞争力的,并且使用远程监督进行多任务学习的组合是这个具有挑战性任务的有效完整系统。
Mar, 2017