维基百科的文本重用：内部和外部

Dec, 2018

维基百科的文本重用：内部和外部

Wikipedia Text Reuse: Within and Without

PDF

Milad Alshomary, Michael Völske, Tristan Licht, Henning Wachsmuth, Benno Stein...

TL;DRWikipedia 的文本复用在内外部的意义和影响等方面被探讨，并利用最先进的文本复用探测技术在分布式检索管道中规模化处理了整个维基百科。

Abstract

We study text reuse related to wikipedia at scale by compiling the first corpus of text reuse cases within →

text reuse wikipedia common crawl text reuse detection ontology

发现论文，激发创造

基于维基百科语料库的问答分析

此论文在对维基百科的四个语料库：WikiQA、SelQA、SQuAD 和 InfoQA 进行内部和外部分析后，提出了一种基于索引的方法来创建一个用于回答检索的银标准数据集，并建议更好地利用这些语料库来进行统计问答学习。

Jan, 2018

Wiki-Reliability: 一个面向维基百科内容可靠性的大规模数据集

本文介绍了 Wiki-Reliability 数据集，该数据集是由标记为具有广泛内容可靠性问题的英文维基百科文章构建的，主要应用于内容可靠性预测的机器学习和信息检索算法的研究。

May, 2021

利用语料库元数据检测基于模板的翻译：埃及阿拉伯维基百科版本的探索性案例研究

通过探索性分析和构建自动检测系统，本文旨在解决埃及阿拉伯维基百科中模板翻译问题，并利用文章元数据构建多变量机器学习分类器来自动检测这些模板翻译文章。最终，将最佳分类器 XGBoost 发布为名为 EGYPTIAN WIKIPEDIA SCANNER 的在线应用，并向研究界提供提取、过滤和标记的数据集，以便从我们的数据集和在线网络检测系统中获益。

Mar, 2024

从维基百科中挖掘意义

该研究论文全面描述了如何将 Wikipedia 蕴藏的概念、关系、事实及描述提取出来并进行应用，分为四个方面：将其应用于自然语言处理、用于信息检索和信息提取、作为本体论构建的资源以及如何将其与其他结构结合创建全新的资源。此外，提及了参与此研究领域的机构、个人及其近年来的发展。

Sep, 2008

一个用于评分维基百科可读性的开放多语言系统

通过构建多语言模型评价维基百科文章的可读性，作者展示了该模型在 14 种语言中的零样本情况下的 80% 以上的排名准确率，并且提供了维基百科的可读性状况的第一个概述。

Jun, 2024

从维基百科修订历史中挖掘自然形成的纠错和改写

通过 Wikipedia 修订历史创建的 WiCoPaCo（Wikipedia 纠正和改写语料库）是一个重要的资源，它包含了人工编辑的大量文本修正和改写，对于训练、评估自动处理文本的过程以及语言研究都非常有用，本文介绍了 WiCoPaCo 的主要动机、构建方式和在法语方面的初步应用。

Feb, 2022

基于维基百科概念的噪音文本主动信息检索

本文探究了如何利用 Wikipidia 概念传递查询上下文以提高对嘈杂文本的主动信息检索的性能，并提出了两种模型，利用实体链接将 Wikipedia 主题与相关性模型关联。实验结果表明，Wikipedia 概念与检索结果相关性之间存在明显信号，关联排序模型的使用可以进一步提高精度，并且使用 Wikipedia 处理查询背景语境可以消除歧义，进一步帮助主动信息检索。

Oct, 2022

从图像标题中获取释义

本文介绍了一种新的挖掘图像说明文字的方法，构建并分析了相应数据集，证明了其作为解释的潜力，并通过算法确定了不同来源的特征地图，以识别来自不同来源的释义方式。

Jan, 2023

任务的映射过程：从维基百科中的 Wikidata 语句到文本句子的转换

本文介绍了一种将 Wikidata 语句转换为英文维基百科文章的任务转化为自然语言文本的方法，并且对输出内容进行了句子结构分析，噪声过滤以及基于词嵌入模型的句子构成关系评估。

Oct, 2022

使用维基百科回答开放领域问题

本文提出使用维基百科作为唯一知识源来解决开放领域问题回答，提出了一种基于大二元哈希和 TF-IDF 匹配的搜索组件与训练于维基段落中检测答案的多层循环神经网络模型的结合方法，同时现有数据集的实验结果表明，这两个模块都是高度竞争力的，并且使用远程监督进行多任务学习的组合是这个具有挑战性任务的有效完整系统。

Mar, 2017