数据到文本自动选择、跟踪和生成学习

ACLJul, 2019

数据到文本自动选择、跟踪和生成学习

Learning to Select, Track, and Generate for Data-to-Text

PDF

Hayate Iso, Yui Uehara, Tatsuya Ishigaki, Hiroshi Noji, Eiji Aramaki...

TL;DR本文提出一种数据到文本生成模型，包含追踪模块和文本生成模块，能模拟人类的写作过程，在不需要作者信息的情况下就能在所有的评估度量中表现优异，结合作者信息可以进一步提高性能。

Abstract

We propose a data-to-text generation model with two modules, one for tracking and the other for text generation. Our →

data-to-text generation tracking module text generation human-like writing process writer information

发现论文，激发创造

内容选择与规划的数据转文本生成

本文提出了一种神经网络体系结构，它在不牺牲端到端训练的前提下，结合了内容选择和计划，通过将生成任务分解为两个阶段，根据数据记录生成内容计划并生成文档，在自动化和人类试验中都取得了优越表现，从而提高了最近发布的 RotoWire 数据集的最新技术。

Sep, 2018

数据到文本生成的端到端内容和计划选择

本文介绍了多种扩展序列 - 序列模型的方法，旨在解决从结构化数据中生成流畅自然语言的问题，特别关注潜在内容选择过程的变体，包括复制注意力和覆盖解码。我们提出了一种基于多样集成的训练方法，以鼓励模型在训练过程中学习不同的句子模板，并通过比较其生成的文本在五个自动度量标准和人类评估中的结果，表明这些技术可以提高生成文本的质量。

Oct, 2018

变分序列计划数据生成技术

本论文考虑数据到文本生成的任务，着重提出了一种生成长篇文章的神经模型，增加了计划组件来组织高层次信息，在结构化变分模型的帮助下逐步推理出潜在计划，从而生成文本。在 RotoWire 和 MLB 两个数据到文本基准测试中，本模型表现优于基准模型，并且在训练数据有限的情况下具有较高的样本效率。

Feb, 2022

数据文档生成的挑战

研究采用新颖的数据生成文本的方式，对当前的文本生成方法进行了探究，并通过提出一系列抽取性评估方法和使用当前神经生成方法得到基线结果。实验结果表明，这些模型产生流畅的文本，但未能令人信服地近似人类生成的文档，甚至模板化的基线方法在某些指标上超过了这些神经模型，尽管复制和重构扩展会导致明显的改进。

Jul, 2017

超越文本生成：通过持续的自动文本摘要支持写手

本文提出了一个文本编辑器，使用自动文本摘要为用户提供不断更新的逐段摘要，以边缘注释的方式帮助用户规划、结构化和反思写作过程。通过两个用户研究，作者发现这个系统为用户提供了一个外部的视角来帮助他们修改段落的内容和范围，并且帮助用户快速了解文本的总体情况和开发一些集成自动摘要中得到的见解的策略。通过探究和强调设计 AI 工具以帮助写作的价值，这项工作突显了自然语言处理 (NLP) 能够超越直接的文本生成和纠正。

Aug, 2022

基于计划的神经数据到文本生成的质量和效率提升

本文从 Moryossef et al （2019）所提出的步骤式神经数据到文本生成方法出发，通过引入可训练的神经计划组件、打字提示、排序确认阶段和简单而有效的指代表达式生成模块的四个扩展，实现了一个更快，更流畅和更准确的生成过程。

Sep, 2019

基于知识选择的主题到文章生成

通过引入富语义知识的内容选择模块和改进的前缀调整方法，提出了一种新型的复制机制模型，用于改进语义相干性、生成多样性和主题一致性，并且在 TGE 任务上的实验结果表明，与现有方法相比，提出的模型可以提高生成文本的多样性 35％至 59％，同时保持高水平的主题一致性。

Feb, 2024

迭代文本编辑的数据生成

本研究提出了一种基于迭代文本编辑的数据到文本生成新方法，使用两个先前训练模型 LaserTagger 和 GPT-2，并通过简单的启发式筛选和已训练语言模型对输出进行筛选和重新排序。

Nov, 2020

实体建模的数据生成

该论文介绍了一种以实体为中心的神经体系结构，用于生成数据到文本的任务，并通过在 RotoWire 基准和棒球领域的新数据集上进行的实验，表明该模型在自动和人类评估上优于竞争基线。

Jun, 2019

搜索与学习：改进数据到文本生成的语义涵盖率

该论文提出一种搜索和学习的方法来解决低语义覆盖率问题，进而提高 data-to-text 生成中预训练语言模型的效率，并在 E2E 和 WikiBio 数据集上实现了高性能。

Dec, 2021