分析英文维基百科上的 Wikidata 引用
本文综述了当前 Wikidata 实体链接数据集的构建及特点,并指出现有实体链接方法仅利用 Wikidata 标签等通用特性,未充分利用其特有的超关系结构,提出应该加入超关系图嵌入和类型信息以提高实体链接质量,并探讨了与 Wikipedia 结合提供更好文本信息的可能性。
Dec, 2021
基于问题回答技术,本研究提出了一个能从网页中提取新事实并推荐给 Wikidata 编辑人员验证的框架,并通过利用 Wikidata 中已有的信息,无需额外学习信号便可训练该框架来提取各种属性和领域的新事实,实验结果表明平均 F1 得分为 84.07,在人类验证之前,有潜力提取数百万条事实,旨在帮助编辑人员的日常任务,完善 Wikidata 知识图谱。
Jan, 2024
本文介绍了一种将 Wikidata 语句转换为英文维基百科文章的任务转化为自然语言文本的方法,并且对输出内容进行了句子结构分析,噪声过滤以及基于词嵌入模型的句子构成关系评估。
Oct, 2022
通过探索性分析和构建自动检测系统,本文旨在解决埃及阿拉伯维基百科中模板翻译问题,并利用文章元数据构建多变量机器学习分类器来自动检测这些模板翻译文章。最终,将最佳分类器 XGBoost 发布为名为 EGYPTIAN WIKIPEDIA SCANNER 的在线应用,并向研究界提供提取、过滤和标记的数据集,以便从我们的数据集和在线网络检测系统中获益。
Mar, 2024
该研究提供了一份跨语言知识传播数据集,用于追踪 Wikipedia 概念的全面传播历史,并探讨了其支撑结构因素以便未来研究探讨,并同时提出了新的应用如填补知识空缺、虚假信息和文化关系的分析。
Mar, 2021
本文提出了一种填补不同语言版本 Wikipedia 的文章覆盖范围空白的方法,通过识别缺失的文章,根据其重要性进行排序,并基于编辑人员的兴趣推荐给他们,经验证,个性化推荐可以将编辑人员的参与度提高两倍,推荐文章被创作的概率提高 3.2 倍,且创作出的文章的质量与自然创作的文章可比拟。该系统可以带来更多参与的编辑人员和更快地发展 Wikipedia,同时不会对其质量产生影响。
Apr, 2016
本文探讨如何使用 Wikidata 中的结构化数据来生成在 Wikipedia 贫穷语言中的开放领域概要。 为此,作者提出了一种神经网络结构,该结构配备有复制操作,可以学习从 Wikidata 三元组中生成单个句子和可理解的文本摘要。作者在阿拉伯语和世界语这两种不同特性的语言上对所提出的方法进行了评估,并证明了它的有效性。
Mar, 2018