数据到文本生成中的自我记忆自我训练

Jan, 2024

数据到文本生成中的自我记忆自我训练

Self-training from Self-memory in Data-to-text Generation

Hoang-Thang Ta

TL;DR利用自身记忆的自我训练模型在数据到文本生成中引入了一种新颖的训练模型 (STSM)，使模型能够在子集上进行自我训练，其中包括直接从训练模型和 / 或新数据推断出的自身记忆作为输出。该模型的自身记忆质量经由数据到文本 (D2T) 模型和文本到数据 (T2D) 模型进行验证，满足两个预定义条件：(1) D2T 模型输出中包含所有源值，以及 (2) T2D 模型输出中可以将文本转换回源数据。我们使用贪婪算法生成较短的 D2T 输出，以确保其包含所有源值。然后，我们使用 T2D 模型确认这些输出能够捕捉输入关系，即通过将文本转换回数据来展示其能力。使用数据集的 30%，我们可以训练 D2T 模型，在相同的设置下与完全训练相比，获得具有竞争力的性能。我们在两个数据集 E2E NLG 和 DART 上进行了实验。STSM 在减少训练数据量的同时，为 D2T 模型提供了来自子集记忆的泛化能力。最终，我们希望这篇论文能为连续学习解决方案做出贡献，该解决方案能够适应新的训练数据，并将其作为 DTG 任务中的一种自身记忆形式。精选数据集可在此链接获取：https:// 这个 URL

Abstract

This paper introduces a novel training model, self-training from self-memory (STSM) in data-to-text generation (→

self-training self-memory data-to-text generation dtg continual learning

发现论文，激发创造

多源学习用于数据生成文本和文本生成数据

本研究论文介绍了一种利用多个非同源语料库进行数据到文本和文本到数据转换的方法，通过引入具有分离风格和内容变量的 VAE 模型来解决单一来源语料库限制的问题，实现了相同甚至更好性能的数据转换。

Feb, 2023

预训练语言模型中数据到文本生成的困难之处是什么？

本文对预训练语言模型和自回归预训练语言模型在 DART 数据集上的 D2T 任务表现进行实证研究，考虑了任务数据量的大小，以及零样本和少样本学习以及模型微调等方式，研究表明需要更多仔细手工策划的数据集来改善基于此的 D2T 生成任务。

May, 2022

DuNST: 双重噪声自训练用于半监督可控文本生成

提出自我训练算法 DuNST，它通过一个变分自编码器共同建模文本生成和分类，利用两种柔性噪声打破生成的伪文本的限制，从而实现利用标签和非标记文本渐进式提高模型性能，应用于三个可控生成任务，显著提高控制准确性，并保持可比较的生成流畅性和多样性。

Dec, 2022

零样本数据到文本生成的神经管线

本文利用预处理语言模型进行通用领域训练，使用由维基百科构建的 WikiFluent 数据集，在 WebNLG 和 E2E 数据集上进行实验证明，使用单个项目描述生成 D2T 是可行的，且可以从 RDF 三元组中完成零 - shot D2T 生成。

Mar, 2022

使用自监督预训练和数据增强增强的直接语音翻译

本文讨论了直接语音到语音翻译模型面临的数据稀缺性问题，探索了自监督预训练和数据增强技术来解决此问题，实验表明自监督预训练可以提高模型性能，结合数据增强技术可以进一步提高模型性能。

Apr, 2022

高召回率的渐进式编辑数据文本生成

该研究通过利用 Transformer 模型的 'Asymmetric Generation' 现象并结合 ProEdit 方法，提出了一种改进的 Data-to-text generation 方法，有效提高了在 ToTTo 数据集上的性能表现。

Aug, 2022

SMDT: 选择性记忆增强神经文档翻译

本文提出了一种选择性存储增强神经文档翻译模型，通过从训练语料库中检索相似的双语句对来增强全局上下文信息，并扩展双流注意力模型以捕捉局部上下文和多样化的全局上下文，该统一方法使我们的模型可以优雅地在三个公开的文档级机器翻译数据集上训练，并显著优于以前的文档级 NMT 模型。

Jan, 2022

自我记忆增强的检索辅助文本生成

本文提出了一个名为 Selfmem 的框架，结合检索增强生成模型的原始和对偶问题，采用检索增强生成器自身进行迭代，以生成无限的记忆池，并使用记忆选择器来挑选下一代回合的记忆。在多个文本生成场景中进行了广泛的实验，并取得了 JRC-Acquis（四个方向），XSum（50.3 ROUGE-1）和 BigPatent（62.9 ROUGE-1）的最新成果。

May, 2023

多方法自训练：通过文本和代码相互改进代码生成

大型语言模型通过多种方法解决问题，在这篇论文中，我们介绍了多方法自训练（MMST），其中一种方法是在另一种方法的过滤输出上训练，从而增强每种方法的优势并改善它们的缺点。通过对同时训练了语言和代码的含有 176B 参数的模型，我们展示了 MMST 可以提升性能较差的方法（最高可达 30%），使模型更易于使用，改善性能较好的方法（最高可达 32.2%），使模型表现更好，并通过提高模型生成原理的能力，改善相关但不同的任务的性能（最高可达 10.3%）。然后，我们进行了消融分析来探索 MMST 的工作原理，发现 MMST 产生的数据比传统的自训练更多，但性能的提升是由多种方法的使用驱动的。我们还分析了提示工程和方法之间的反相关性能，以提高 MMST 的有效性。我们希望我们论文中的证据能够激励机器学习研究人员探索语言模型进步带来的新型训练方法。

Jul, 2023

使用自我训练提高数据到文本生成的组合泛化能力

本文研究了结构化意义表示到自然语言生成中 T5 模型的泛化问题，提出了基于模板的输入表示和基于 fine-tuned BLEURT 的自训练方法来改善模型的泛化和性能，在少样本场景下通过常用的 SGD 和 Weather 基准测试取得了比强基线模型 46% 以上的提升和 73% 以上的错误率降低。

Oct, 2021