宏观规划的数据生成文本技术
本文提出了一种神经网络体系结构,它在不牺牲端到端训练的前提下,结合了内容选择和计划,通过将生成任务分解为两个阶段,根据数据记录生成内容计划并生成文档,在自动化和人类试验中都取得了优越表现,从而提高了最近发布的 RotoWire 数据集的最新技术。
Sep, 2018
本论文考虑数据到文本生成的任务,着重提出了一种生成长篇文章的神经模型,增加了计划组件来组织高层次信息,在结构化变分模型的帮助下逐步推理出潜在计划,从而生成文本。在 RotoWire 和 MLB 两个数据到文本基准测试中,本模型表现优于基准模型,并且在训练数据有限的情况下具有较高的样本效率。
Feb, 2022
本文从 Moryossef et al (2019)所提出的步骤式神经数据到文本生成方法出发,通过引入可训练的神经计划组件、打字提示、排序确认阶段和简单而有效的指代表达式生成模块的四个扩展,实现了一个更快,更流畅和更准确的生成过程。
Sep, 2019
该论文介绍了一种以实体为中心的神经体系结构,用于生成数据到文本的任务,并通过在 RotoWire 基准和棒球领域的新数据集上进行的实验,表明该模型在自动和人类评估上优于竞争基线。
Jun, 2019
将数据转文本生成过程拆分为符号文本计划和神经生成两个阶段,通过匹配参考文本和选择高质量文本计划提高系统的可靠性和适用性,同时保持流畅的输出。在 WebNLG 基准测试中得到了 BLEU 得分和人工评估的改善,并能够输出同一输入的多种不同的实现,为生成文本结构的显式控制铺平了道路。
Apr, 2019
研究人员提出了一种基于训练有素的神经网络的文本生成模型,以便从结构化数据中(例如表格)生成自然文本,该模型能够捕捉不同字段之间的关系,以生成更流畅的文本。
Sep, 2017
本文介绍了多种扩展序列 - 序列模型的方法,旨在解决从结构化数据中生成流畅自然语言的问题,特别关注潜在内容选择过程的变体,包括复制注意力和覆盖解码。我们提出了一种基于多样集成的训练方法,以鼓励模型在训练过程中学习不同的句子模板,并通过比较其生成的文本在五个自动度量标准和人类评估中的结果,表明这些技术可以提高生成文本的质量。
Oct, 2018
本研究提出了一种 Plan-then-Generate(PlanGen)框架,以改善神经数据生成文本模型的可控性,并通过两个基准数据集 ToTTo 和 WebNLG 进行了广泛的实验和分析,结果显示,我们的模型能够控制生成输出的句内和句间结构,而且与先前的最先进方法进行了实证比较,显示出我们的模型提高了生成质量以及人机评估的输出多样性。
Aug, 2021
本文提出了一种分层模型,对结构化数据进行编码,并通过数据元素级别和结构级别进行结构化数据转化为自然语言生成,实现了数据到文本的转换,并在 RotoWire 数据集上进行了定性和定量评估。
Dec, 2019
通过端到端训练的两步生成模型,即首先由句子级内容规划器决定涵盖的关键词组和所需的语言风格,然后由表面实现解码器生成相关和连贯的文本,可以显著优于现有竞争模型,在 Reddit 的说服性论证、维基百科的正常和简单版本的段落生成以及科学文章的摘要生成等任务中得到验证。
Sep, 2019