高召回率的渐进式编辑数据文本生成

Aug, 2022

高召回率的渐进式编辑数据文本生成

High Recall Data-to-text Generation with Progressive Edit

Choonghan Kim, Gary Geunbae Lee

TL;DR该研究通过利用 Transformer 模型的 'Asymmetric Generation' 现象并结合 ProEdit 方法，提出了一种改进的 Data-to-text generation 方法，有效提高了在 ToTTo 数据集上的性能表现。

Abstract

Data-to-text (D2T) generation is the task of generating texts from structured inputs. We observed that when the same target sentence was repeated twice, Transformer (T5) based model generates an output made up of asymmetric sentences from structured inputs. In other words, these sentences were different in length and quality. We call this phenomenon "Asymmet

data-to-text generation transformer model asymmetric generation proedit totto dataset

发现论文，激发创造

预训练语言模型中数据到文本生成的困难之处是什么？

本文对预训练语言模型和自回归预训练语言模型在 DART 数据集上的 D2T 任务表现进行实证研究，考虑了任务数据量的大小，以及零样本和少样本学习以及模型微调等方式，研究表明需要更多仔细手工策划的数据集来改善基于此的 D2T 生成任务。

May, 2022

迭代文本编辑的数据生成

本研究提出了一种基于迭代文本编辑的数据到文本生成新方法，使用两个先前训练模型 LaserTagger 和 GPT-2，并通过简单的启发式筛选和已训练语言模型对输出进行筛选和重新排序。

Nov, 2020

多源学习用于数据生成文本和文本生成数据

本研究论文介绍了一种利用多个非同源语料库进行数据到文本和文本到数据转换的方法，通过引入具有分离风格和内容变量的 VAE 模型来解决单一来源语料库限制的问题，实现了相同甚至更好性能的数据转换。

Feb, 2023

将结构化数据统一为图形以进行数据到文本预训练

将各种结构化数据（如表格、键值数据、知识图谱）统一为图形格式，并将不同的数据转化为文本生成任务视为图形到文本生成任务。为了有效利用输入图形的结构信息，我们提出了一种结构增强的预训练方法，通过设计一种结构增强的 Transformer 来进行 D2T 生成。经过大量实验证明了我们模型的有效性。

Jan, 2024

端到端神经数据文本生成：从数据到文本生成语义忠实性

DataTuner 是一个神经网络端到端生成数据文本的系统，结合 fine-tuned 语言模型和语义保真分类器，仅需最少的数据特定启发式、实体去词法和后处理即可实现所有端到端学习，可以在多种数据集上取得最先进的结果并获得比传统启发式度量更好的语义保真度。

Apr, 2020

零样本数据到文本生成的神经管线

本文利用预处理语言模型进行通用领域训练，使用由维基百科构建的 WikiFluent 数据集，在 WebNLG 和 E2E 数据集上进行实验证明，使用单个项目描述生成 D2T 是可行的，且可以从 RDF 三元组中完成零 - shot D2T 生成。

Mar, 2022

指令式文本编辑

本研究通过提出一种交互式文本生成设置，在其中用户通过向系统发出编辑现有文本的命令与系统进行交互，来解决神经文本生成中一次生成的局限性，并介绍了一种新的文本编辑任务。通过使用 Wikipedia 中的单句编辑构成了一个名为 WikiDocEdits 的数据集，使用基于 transformer 的模型在其中进行训练以提高其自动产生的成果和用户评估结果。在此基础上，本研究分别从经验和定性分析方面展示了该模型的性能表现。

Oct, 2020

数据到文本生成中的自我记忆自我训练

利用自身记忆的自我训练模型在数据到文本生成中引入了一种新颖的训练模型 (STSM)，使模型能够在子集上进行自我训练，其中包括直接从训练模型和 / 或新数据推断出的自身记忆作为输出。该模型的自身记忆质量经由数据到文本 (D2T) 模型和文本到数据 (T2D) 模型进行验证，满足两个预定义条件：(1) D2T 模型输出中包含所有源值，以及 (2) T2D 模型输出中可以将文本转换回源数据。我们使用贪婪算法生成较短的 D2T 输出，以确保其包含所有源值。然后，我们使用 T2D 模型确认这些输出能够捕捉输入关系，即通过将文本转换回数据来展示其能力。使用数据集的 30%，我们可以训练 D2T 模型，在相同的设置下与完全训练相比，获得具有竞争力的性能。我们在两个数据集 E2E NLG 和 DART 上进行了实验。STSM 在减少训练数据量的同时，为 D2T 模型提供了来自子集记忆的泛化能力。最终，我们希望这篇论文能为连续学习解决方案做出贡献，该解决方案能够适应新的训练数据，并将其作为 DTG 任务中的一种自身记忆形式。精选数据集可在此链接获取：https:// 这个 URL

Jan, 2024

使用文本编辑模型生成文本

本文介绍了文本编辑模型和 seq2seq 模型，分析了它们的优缺点，探讨了生产化和应对文本生成中的幻觉和偏见等挑战。

Jun, 2022

数据到文本自动选择、跟踪和生成学习

本文提出一种数据到文本生成模型，包含追踪模块和文本生成模块，能模拟人类的写作过程，在不需要作者信息的情况下就能在所有的评估度量中表现优异，结合作者信息可以进一步提高性能。

Jul, 2019