本文探讨如何使用 Wikidata 中的结构化数据来生成在 Wikipedia 贫穷语言中的开放领域概要。 为此,作者提出了一种神经网络结构,该结构配备有复制操作,可以学习从 Wikidata 三元组中生成单个句子和可理解的文本摘要。作者在阿拉伯语和世界语这两种不同特性的语言上对所提出的方法进行了评估,并证明了它的有效性。
Mar, 2018
通过抽取式摘要识别重要信息并使用神经摘要模型生成文章及段落以及整个维基百科文章,特别是引入可扩展关注长序列的仅解码器结构,当给定参考文献时,该模型可以提取相关的事实信息。
Jan, 2018
本论文探讨了如何使用神经网络将语义万维网数据的三元组信息转化为定长向量,并在此基础上生成自然语言摘要,经过在维基百科片段和数据库等数据集的训练和评估,表现出了良好的结果。
Nov, 2017
本文介绍了一个神经模型,用于在大型、丰富的领域中进行从概念到文本的生成。该模型在维基百科的传记新数据集上进行了实验,该数据集比现有资源大一个数量级,具有 70 万个样本,并且词汇量非常丰富,与 Weathergov 或 Robocup 的几百个词相比。我们的神经模型基于最近对于文本生成的条件神经语言模型的工作。为了处理大量单词,我们扩展这些模型,将固定的词汇表与从输入数据库传输特定于样本的词汇的复制操作混合生成的输出句子。我们的神经模型在这项任务上明显优于经过调整的经典 Kneser-Ney 语言模型,BLEU 值近 15。
Mar, 2016
该研究提出了一种基于模型的度量标准,用于评估生成的文本的事实准确性,并引入了一个新的基于维基百科和维基数据的大规模数据集来训练关系分类器和端到端事实提取模型。通过在维基百科文本摘要任务中分析多个模型的准确性并进行人类评估研究,论文展示了这些方法相对于 ROUGE 和其他无模型变量的方法的功效。
May, 2019
该研究提出了一个基于自然语言的控制生成任务,可将一系列事实扩展为更长的叙述,并通过引入人类评估指标和大型训练数据集的方法评估了三种方法,证明了自回归的单向语言模型如 GPT2 的生成流畅度更好,但很难遵循所请求的事实,提出了一个基于计划和填空模型的解决方案(使用精细调整的 XLNet),其生成流畅度有竞争力,同时遵循所请求的内容。
Dec, 2020
本文提出了使用两阶段方法来重写包含大量文本的在线百科全书,通过识别和去除矛盾组件,并使用一种新颖的双编码器序列到序列模型进行扩展,以生成一致性更新的句子。实验结果表明,该方法成功地生成了新的索赔的更新语句,并通过增加重新编写的句子生成合成数据,从而成功地增加了 FEVER 事实检查培训数据集的相对误差降低了 13%。
Sep, 2019
利用文献检索和缓存预训练编码器 - 解码器从 Web 上获取相关信息和生成事实准确的文章,并通过对女性传记的生成进行比较来评估文章质量。
Apr, 2022
本文提出了一个神经网络的方法,该方法应用核心指代知识来产生覆盖单句以外内容的维基百科相关问题 - 答案对,并通过对一百万个这些问题 - 答案对的定性分析表明了该系统的有效性。
May, 2018
本文介绍了一种将 Wikidata 语句转换为英文维基百科文章的任务转化为自然语言文本的方法,并且对输出内容进行了句子结构分析,噪声过滤以及基于词嵌入模型的句子构成关系评估。
Oct, 2022