基于结构化数据的神经文本生成技术研究及其在传记领域的应用

EMNLPMar, 2016

基于结构化数据的神经文本生成技术研究及其在传记领域的应用

Neural Text Generation from Structured Data with Application to the Biography Domain

Remi Lebret, David Grangier, Michael Auli

TL;DR本文介绍了一个神经模型，用于在大型、丰富的领域中进行从概念到文本的生成。该模型在维基百科的传记新数据集上进行了实验，该数据集比现有资源大一个数量级，具有 70 万个样本，并且词汇量非常丰富，与 Weathergov 或 Robocup 的几百个词相比。我们的神经模型基于最近对于文本生成的条件神经语言模型的工作。为了处理大量单词，我们扩展这些模型，将固定的词汇表与从输入数据库传输特定于样本的词汇的复制操作混合生成的输出句子。我们的神经模型在这项任务上明显优于经过调整的经典 Kneser-Ney 语言模型，BLEU 值近 15。

Abstract

This paper introduces a neural model for concept-to-text generation that scales to large, rich domains. We experiment with a new dataset o

neural model concept-to-text generation large dataset copy actions text generation

发现论文，激发创造

实体建模的数据生成

该论文介绍了一种以实体为中心的神经体系结构，用于生成数据到文本的任务，并通过在 RotoWire 基准和棒球领域的新数据集上进行的实验，表明该模型在自动和人类评估上优于竞争基线。

Jun, 2019

基于结构化数据的订单规划神经文本生成

研究人员提出了一种基于训练有素的神经网络的文本生成模型，以便从结构化数据中（例如表格）生成自然文本，该模型能够捕捉不同字段之间的关系，以生成更流畅的文本。

Sep, 2017

数据文档生成的挑战

研究采用新颖的数据生成文本的方式，对当前的文本生成方法进行了探究，并通过提出一系列抽取性评估方法和使用当前神经生成方法得到基线结果。实验结果表明，这些模型产生流畅的文本，但未能令人信服地近似人类生成的文档，甚至模板化的基线方法在某些指标上超过了这些神经模型，尽管复制和重构扩展会导致明显的改进。

Jul, 2017

从 Wikidata 学习生成单句传记

利用循环神经网络的序列到序列模型，结合注意力选择 Wikidata 中的事实并生成与之相关的维基百科传记句，模型通过人类偏好评估接近于维基百科参考水平，并且通过分析内容选择，模型可以在推断知识和错觉错误信息之间进行折中。

Feb, 2017

变分序列计划数据生成技术

本论文考虑数据到文本生成的任务，着重提出了一种生成长篇文章的神经模型，增加了计划组件来组织高层次信息，在结构化变分模型的帮助下逐步推理出潜在计划，从而生成文本。在 RotoWire 和 MLB 两个数据到文本基准测试中，本模型表现优于基准模型，并且在训练数据有限的情况下具有较高的样本效率。

Feb, 2022

内容选择与规划的数据转文本生成

本文提出了一种神经网络体系结构，它在不牺牲端到端训练的前提下，结合了内容选择和计划，通过将生成任务分解为两个阶段，根据数据记录生成内容计划并生成文档，在自动化和人类试验中都取得了优越表现，从而提高了最近发布的 RotoWire 数据集的最新技术。

Sep, 2018

神经百科全书：从知识库三元组生成文本摘要

本论文探讨了如何使用神经网络将语义万维网数据的三元组信息转化为定长向量，并在此基础上生成自然语言摘要，经过在维基百科片段和数据库等数据集的训练和评估，表现出了良好的结果。

Nov, 2017

基于计划的神经数据到文本生成的质量和效率提升

本文从 Moryossef et al （2019）所提出的步骤式神经数据到文本生成方法出发，通过引入可训练的神经计划组件、打字提示、排序确认阶段和简单而有效的指代表达式生成模块的四个扩展，实现了一个更快，更流畅和更准确的生成过程。

Sep, 2019

分层神经故事生成

该研究探讨了故事生成：创作系统可以在一个主题上构建连贯流畅的文本段落，使用一个大规模的数据集，通过分层式故事生成模型，研究人员成功地实现了模型融合，引入了新的门控多尺度自注意机制，并在自动化和人工评估中实现了显著的改进。

May, 2018

计划 - 生成：通过计划控制数据到文本的生成

本研究提出了一种 Plan-then-Generate（PlanGen）框架，以改善神经数据生成文本模型的可控性，并通过两个基准数据集 ToTTo 和 WebNLG 进行了广泛的实验和分析，结果显示，我们的模型能够控制生成输出的句内和句间结构，而且与先前的最先进方法进行了实证比较，显示出我们的模型提高了生成质量以及人机评估的输出多样性。

Aug, 2021