Jan, 2024

数据到文本生成中的自我记忆自我训练

TL;DR利用自身记忆的自我训练模型在数据到文本生成中引入了一种新颖的训练模型 (STSM),使模型能够在子集上进行自我训练,其中包括直接从训练模型和 / 或新数据推断出的自身记忆作为输出。该模型的自身记忆质量经由数据到文本 (D2T) 模型和文本到数据 (T2D) 模型进行验证,满足两个预定义条件:(1) D2T 模型输出中包含所有源值,以及 (2) T2D 模型输出中可以将文本转换回源数据。我们使用贪婪算法生成较短的 D2T 输出,以确保其包含所有源值。然后,我们使用 T2D 模型确认这些输出能够捕捉输入关系,即通过将文本转换回数据来展示其能力。使用数据集的 30%,我们可以训练 D2T 模型,在相同的设置下与完全训练相比,获得具有竞争力的性能。我们在两个数据集 E2E NLG 和 DART 上进行了实验。STSM 在减少训练数据量的同时,为 D2T 模型提供了来自子集记忆的泛化能力。最终,我们希望这篇论文能为连续学习解决方案做出贡献,该解决方案能够适应新的训练数据,并将其作为 DTG 任务中的一种自身记忆形式。精选数据集可在此链接获取:https:// 这个 URL