多源学习用于数据生成文本和文本生成数据
本文对预训练语言模型和自回归预训练语言模型在 DART 数据集上的 D2T 任务表现进行实证研究,考虑了任务数据量的大小,以及零样本和少样本学习以及模型微调等方式,研究表明需要更多仔细手工策划的数据集来改善基于此的 D2T 生成任务。
May, 2022
将各种结构化数据(如表格、键值数据、知识图谱)统一为图形格式,并将不同的数据转化为文本生成任务视为图形到文本生成任务。为了有效利用输入图形的结构信息,我们提出了一种结构增强的预训练方法,通过设计一种结构增强的 Transformer 来进行 D2T 生成。经过大量实验证明了我们模型的有效性。
Jan, 2024
提出了一个新的任务 —— 风格化数据到文本生成,旨在根据特定的风格为给定的非语言数据生成连贯的文本。为应对逻辑、风格和偏差等三个挑战,我们提出了一个名为 StyleD2T 的新型模型,包括三个组件:逻辑规划增强数据嵌入、基于掩码的风格嵌入和无偏向的风格化文本生成。
May, 2023
利用自身记忆的自我训练模型在数据到文本生成中引入了一种新颖的训练模型 (STSM),使模型能够在子集上进行自我训练,其中包括直接从训练模型和 / 或新数据推断出的自身记忆作为输出。该模型的自身记忆质量经由数据到文本 (D2T) 模型和文本到数据 (T2D) 模型进行验证,满足两个预定义条件:(1) D2T 模型输出中包含所有源值,以及 (2) T2D 模型输出中可以将文本转换回源数据。我们使用贪婪算法生成较短的 D2T 输出,以确保其包含所有源值。然后,我们使用 T2D 模型确认这些输出能够捕捉输入关系,即通过将文本转换回数据来展示其能力。使用数据集的 30%,我们可以训练 D2T 模型,在相同的设置下与完全训练相比,获得具有竞争力的性能。我们在两个数据集 E2E NLG 和 DART 上进行了实验。STSM 在减少训练数据量的同时,为 D2T 模型提供了来自子集记忆的泛化能力。最终,我们希望这篇论文能为连续学习解决方案做出贡献,该解决方案能够适应新的训练数据,并将其作为 DTG 任务中的一种自身记忆形式。精选数据集可在此链接获取:https:// 这个 URL
Jan, 2024
本文利用预处理语言模型进行通用领域训练,使用由维基百科构建的 WikiFluent 数据集,在 WebNLG 和 E2E 数据集上进行实验证明,使用单个项目描述生成 D2T 是可行的,且可以从 RDF 三元组中完成零 - shot D2T 生成。
Mar, 2022
该研究通过利用 Transformer 模型的 'Asymmetric Generation' 现象并结合 ProEdit 方法,提出了一种改进的 Data-to-text generation 方法,有效提高了在 ToTTo 数据集上的性能表现。
Aug, 2022
DataTuner 是一个神经网络端到端生成数据文本的系统,结合 fine-tuned 语言模型和语义保真分类器,仅需最少的数据特定启发式、实体去词法和后处理即可实现所有端到端学习,可以在多种数据集上取得最先进的结果并获得比传统启发式度量更好的语义保真度。
Apr, 2020
本研究提出了一种新的文本翻译增强的端到端文本图像翻译方法,采用多任务学习方式,通过将翻译作为辅助任务来训练端到端模型,利用易得的大规模文本平行语料库,取得了比现有方法更好的实验结果,证明翻译和识别辅助任务是互补的。
Oct, 2022
本文提出一种新颖的文本生成 3D 模型方法(T2TD),通过引入相关形状或文本信息作为先验知识来提高 3D 模型生成模型的性能,并采用多层变压器结构逐步融合相关形状和文本信息,证明了该方法在 3D 模型生成质量上显着提高,且表现优于现有文本转形状数据集上的 SOTA 方法。
May, 2023