迭代文本编辑的数据生成

Nov, 2020

Data-to-Text Generation with Iterative Text Editing

Zdeněk Kasner, Ondřej Dušek

TL;DR本研究提出了一种基于迭代文本编辑的数据到文本生成新方法，使用两个先前训练模型 LaserTagger 和 GPT-2，并通过简单的启发式筛选和已训练语言模型对输出进行筛选和重新排序。

Abstract

We present a novel approach to data-to-text generation based on iterative text editing. Our approach maximizes the completeness and semantic accuracy of the output text while leveraging the abilities of recent pre-trained models for text editing (→

data-to-text generation iterative text editing neural model lasertagger gpt-2

发现论文，激发创造

基于 LM 的文本增强的神经数据到文本生成

通过少量文本样本的文本增强和使用循环一致性作为目标实现弱监督训练范式在数据到文本生成中的有效性。

Feb, 2021

端到端神经数据文本生成：从数据到文本生成语义忠实性

DataTuner 是一个神经网络端到端生成数据文本的系统，结合 fine-tuned 语言模型和语义保真分类器，仅需最少的数据特定启发式、实体去词法和后处理即可实现所有端到端学习，可以在多种数据集上取得最先进的结果并获得比传统启发式度量更好的语义保真度。

Apr, 2020

零样本数据到文本生成的神经管线

本文利用预处理语言模型进行通用领域训练，使用由维基百科构建的 WikiFluent 数据集，在 WebNLG 和 E2E 数据集上进行实验证明，使用单个项目描述生成 D2T 是可行的，且可以从 RDF 三元组中完成零 - shot D2T 生成。

Mar, 2022

指令式文本编辑

本研究通过提出一种交互式文本生成设置，在其中用户通过向系统发出编辑现有文本的命令与系统进行交互，来解决神经文本生成中一次生成的局限性，并介绍了一种新的文本编辑任务。通过使用 Wikipedia 中的单句编辑构成了一个名为 WikiDocEdits 的数据集，使用基于 transformer 的模型在其中进行训练以提高其自动产生的成果和用户评估结果。在此基础上，本研究分别从经验和定性分析方面展示了该模型的性能表现。

Oct, 2020

使用文本编辑模型生成文本

本文介绍了文本编辑模型和 seq2seq 模型，分析了它们的优缺点，探讨了生产化和应对文本生成中的幻觉和偏见等挑战。

Jun, 2022

实体建模的数据生成

该论文介绍了一种以实体为中心的神经体系结构，用于生成数据到文本的任务，并通过在 RotoWire 基准和棒球领域的新数据集上进行的实验，表明该模型在自动和人类评估上优于竞争基线。

Jun, 2019

搜索与学习：改进数据到文本生成的语义涵盖率

该论文提出一种搜索和学习的方法来解决低语义覆盖率问题，进而提高 data-to-text 生成中预训练语言模型的效率，并在 E2E 和 WikiBio 数据集上实现了高性能。

Dec, 2021

使用自然语言推理评估数据生成文本的语义准确性

本论文提出了一种使用预训练的自然语言推理神经模型来衡量数据到文本生成语义准确性的新度量方法，并利用该方法来检验两个方向之间的文本蕴含，从而揭示输出中的遗漏或虚构。实验证明，该指标能够在鉴定系统输出的错误方面达到高的精度。

Nov, 2020

数据文档生成的挑战

研究采用新颖的数据生成文本的方式，对当前的文本生成方法进行了探究，并通过提出一系列抽取性评估方法和使用当前神经生成方法得到基线结果。实验结果表明，这些模型产生流畅的文本，但未能令人信服地近似人类生成的文档，甚至模板化的基线方法在某些指标上超过了这些神经模型，尽管复制和重构扩展会导致明显的改进。

Jul, 2017

编码、标签、实现：高精度文本编辑

LaserTagger 是一种将文本生成转换为文本编辑任务的序列标注方法，并通过使用 BERT 编码器和自回归 Transformer 解码器的新型模型来预测编辑操作。在四个任务中测试表明，LaserTagger 在三个任务上取得了新的最优结果，并在训练示例数量有限的情况下优于 seq2seq 模型。同时，LaserTagger 在推理时的标注速度比相似的 seq2seq 模型快两个数量级。

Sep, 2019