从 Wikidata 学习生成单句传记

Feb, 2017

Learning to generate one-sentence biographies from Wikidata

Andrew Chisholm, Will Radford, Ben Hachey

TL;DR利用循环神经网络的序列到序列模型，结合注意力选择 Wikidata 中的事实并生成与之相关的维基百科传记句，模型通过人类偏好评估接近于维基百科参考水平，并且通过分析内容选择，模型可以在推断知识和错觉错误信息之间进行折中。

Abstract

We investigate the generation of one-sentence wikipedia biographies from facts derived from wikidata slot-value pairs. We train a recurrent neural network sequence-to-sequence model with attention to select facts

wikipedia wikidata recurrent neural network sentence generation content selection

发现论文，激发创造

从 Wikidata 学习为少数语言生成维基百科摘要

本文探讨如何使用 Wikidata 中的结构化数据来生成在 Wikipedia 贫穷语言中的开放领域概要。为此，作者提出了一种神经网络结构，该结构配备有复制操作，可以学习从 Wikidata 三元组中生成单个句子和可理解的文本摘要。作者在阿拉伯语和世界语这两种不同特性的语言上对所提出的方法进行了评估，并证明了它的有效性。

Mar, 2018

通过长序列摘要生成维基百科

通过抽取式摘要识别重要信息并使用神经摘要模型生成文章及段落以及整个维基百科文章，特别是引入可扩展关注长序列的仅解码器结构，当给定参考文献时，该模型可以提取相关的事实信息。

Jan, 2018

神经百科全书：从知识库三元组生成文本摘要

本论文探讨了如何使用神经网络将语义万维网数据的三元组信息转化为定长向量，并在此基础上生成自然语言摘要，经过在维基百科片段和数据库等数据集的训练和评估，表现出了良好的结果。

Nov, 2017

基于结构化数据的神经文本生成技术研究及其在传记领域的应用

本文介绍了一个神经模型，用于在大型、丰富的领域中进行从概念到文本的生成。该模型在维基百科的传记新数据集上进行了实验，该数据集比现有资源大一个数量级，具有 70 万个样本，并且词汇量非常丰富，与 Weathergov 或 Robocup 的几百个词相比。我们的神经模型基于最近对于文本生成的条件神经语言模型的工作。为了处理大量单词，我们扩展这些模型，将固定的词汇表与从输入数据库传输特定于样本的词汇的复制操作混合生成的输出句子。我们的神经模型在这项任务上明显优于经过调整的经典 Kneser-Ney 语言模型，BLEU 值近 15。

Mar, 2016

评估生成文本的事实准确性

该研究提出了一种基于模型的度量标准，用于评估生成的文本的事实准确性，并引入了一个新的基于维基百科和维基数据的大规模数据集来训练关系分类器和端到端事实提取模型。通过在维基百科文本摘要任务中分析多个模型的准确性并进行人类评估研究，论文展示了这些方法相对于 ROUGE 和其他无模型变量的方法的功效。

May, 2019

Facts2Story：通过关键事实控制文本生成

该研究提出了一个基于自然语言的控制生成任务，可将一系列事实扩展为更长的叙述，并通过引入人类评估指标和大型训练数据集的方法评估了三种方法，证明了自回归的单向语言模型如 GPT2 的生成流畅度更好，但很难遵循所请求的事实，提出了一个基于计划和填空模型的解决方案（使用精细调整的 XLNet），其生成流畅度有竞争力，同时遵循所请求的内容。

Dec, 2020

自动基于事实的句子修改

本文提出了使用两阶段方法来重写包含大量文本的在线百科全书，通过识别和去除矛盾组件，并使用一种新颖的双编码器序列到序列模型进行扩展，以生成一致性更新的句子。实验结果表明，该方法成功地生成了新的索赔的更新语句，并通过增加重新编写的句子生成合成数据，从而成功地增加了 FEVER 事实检查培训数据集的相对误差降低了 13%。

Sep, 2019

生成完整的维基百科传记：性别偏见对检索式生成女性传记的影响

利用文献检索和缓存预训练编码器 - 解码器从 Web 上获取相关信息和生成事实准确的文章，并通过对女性传记的生成进行比较来评估文章质量。

Apr, 2022

从维基百科抽取段落级问题 - 答案对

本文提出了一个神经网络的方法，该方法应用核心指代知识来产生覆盖单句以外内容的维基百科相关问题 - 答案对，并通过对一百万个这些问题 - 答案对的定性分析表明了该系统的有效性。

May, 2018

任务的映射过程：从维基百科中的 Wikidata 语句到文本句子的转换

本文介绍了一种将 Wikidata 语句转换为英文维基百科文章的任务转化为自然语言文本的方法，并且对输出内容进行了句子结构分析，噪声过滤以及基于词嵌入模型的句子构成关系评估。

Oct, 2022