Descartes: 生成维基百科文章的简短描述

May, 2022

Descartes: 生成维基百科文章的简短描述

Descartes: Generating Short Descriptions of Wikipedia Articles

Marija Sakota, Maxime Peyrard, Robert West

TL;DR该研究提出了一种自动生成多语言维基百科文章简短描述的方法，该方法整合了文章的多种语言版本、已有的简短描述和知识图谱中的语义类型信息，其生成的文章描述已通过人类评价的测试。

Abstract

wikipedia is one of the richest knowledge sources on the Web today. In order to facilitate navigating, searching, and maintaining its content, wikipedia's guidelines state that all articles should be annotated wi

wikipedia short descriptions automatic generation multilingual model knowledge graph

发现论文，激发创造

WikiDes: 一份基于维基百科的数据集，用于从段落中生成简短描述

介绍了一个新的名为 WikiDes 的数据集，利用 T5 和 BART 等预训练模型实现了基于传递学习和对比学习的短描述生成和排名。结果表明，该方法在文本摘要中的表现优于传统方法，并可用于生成缺失的描述，丰富 Wikidata 知识图谱。

Sep, 2022

从 Wikidata 学习为少数语言生成维基百科摘要

本文探讨如何使用 Wikidata 中的结构化数据来生成在 Wikipedia 贫穷语言中的开放领域概要。为此，作者提出了一种神经网络结构，该结构配备有复制操作，可以学习从 Wikidata 三元组中生成单个句子和可理解的文本摘要。作者在阿拉伯语和世界语这两种不同特性的语言上对所提出的方法进行了评估，并证明了它的有效性。

Mar, 2018

XWikiGen：低资源语言百科文本生成的跨语言摘要

本研究针对缺乏百科全书文本贡献者的问题，提出了一种基于多语言参考文章的跨语言多文档摘要生成任务，同时建立了一个基准数据集，并提出了一种基于神经网络的有监督和无监督摘要生成系统，实验表明多领域的训练要优于多语言的设置。

Mar, 2023

任务的映射过程：从维基百科中的 Wikidata 语句到文本句子的转换

本文介绍了一种将 Wikidata 语句转换为英文维基百科文章的任务转化为自然语言文本的方法，并且对输出内容进行了句子结构分析，噪声过滤以及基于词嵌入模型的句子构成关系评估。

Oct, 2022

从 Wikidata 学习生成单句传记

利用循环神经网络的序列到序列模型，结合注意力选择 Wikidata 中的事实并生成与之相关的维基百科传记句，模型通过人类偏好评估接近于维基百科参考水平，并且通过分析内容选择，模型可以在推断知识和错觉错误信息之间进行折中。

Feb, 2017

一个用于评分维基百科可读性的开放多语言系统

通过构建多语言模型评价维基百科文章的可读性，作者展示了该模型在 14 种语言中的零样本情况下的 80% 以上的排名准确率，并且提供了维基百科的可读性状况的第一个概述。

Jun, 2024

神经百科全书：从知识库三元组生成文本摘要

本论文探讨了如何使用神经网络将语义万维网数据的三元组信息转化为定长向量，并在此基础上生成自然语言摘要，经过在维基百科片段和数据库等数据集的训练和评估，表现出了良好的结果。

Nov, 2017

通过长序列摘要生成维基百科

通过抽取式摘要识别重要信息并使用神经摘要模型生成文章及段落以及整个维基百科文章，特别是引入可扩展关注长序列的仅解码器结构，当给定参考文献时，该模型可以提取相关的事实信息。

Jan, 2018

利用推荐技术跨语言扩展维基百科

本文提出了一种填补不同语言版本 Wikipedia 的文章覆盖范围空白的方法，通过识别缺失的文章，根据其重要性进行排序，并基于编辑人员的兴趣推荐给他们，经验证，个性化推荐可以将编辑人员的参与度提高两倍，推荐文章被创作的概率提高 3.2 倍，且创作出的文章的质量与自然创作的文章可比拟。该系统可以带来更多参与的编辑人员和更快地发展 Wikipedia，同时不会对其质量产生影响。

Apr, 2016

WebBrain：基于大型网页语料库学习生成与查询相关的事实正确文章

本文介绍了一个新的自然语言处理任务 —— 通过从 Web 中挖掘支持性证据，生成具有引用文献的短实证文章。为此，我们构建了一个大规模数据集，通过从英文维基百科文章及其可爬行的维基百科参考文献中提取而来。我们实验了当前最先进的 NLP 技术在 WebBrain 上的效果，并引入了一个新的框架 ReGen，它通过改进证据检索和任务特定的预训练来增强生成的实证性。实验结果表明，ReGen 在自动和人工评估中都优于所有基线。

Apr, 2023