CycleGT: 通过循环训练实现无监督图到文本和文本到图生成
该研究提出了一种基于 T5 架构的多任务半监督环境下联合学习文本图谱提取和图谱生成的解决方案,此方法在 WebNLG 数据集中表现优于无监督最新成果,且相较于有监督模型更具一致性。
Feb, 2022
本文提出了一种基于无监督学习的方法 —— 循环训练,用于改善从结构化数据向自然语言文本的转化问题,在四个数据集中,这种方法表现得像完全监督方法一样出色,通过自动评价和人工评估表明,循环训练策略的不同对于降低文本生成错误类型的有效性也不同。
May, 2023
提出了 INFINITY 这种简单而有效的无监督方法,该方法不需要外部注释工具或额外的并行信息,通过对预训练 seq2seq 模型的微调,INFINITY 将 G2T 和 T2G 都视为双向序列生成任务,并设计了一种基于回译的框架来自动生成连续的合成并行数据,通过利用奖励增强最大似然度的优势,采用基于奖励的训练损失来获得合理的具有结构信息的图形序列从源文本中。该完全无监督的框架在 G2T 和 T2G 任务中被实证验证优于现有最先进的基线。
Sep, 2022
本文提出了一种名为图向话题(G2T)的框架,该框架能够使用预训练语言模型获取文档表示,并通过语义图和社区检测等方法进行主题建模。自动评估结果表明,G2T 在英文和中文文档上均取得了最优表现,并且比基线模型产生了更好的可解释性和覆盖范围。
Apr, 2023
通过无监督文本生成的方法,本研究旨在解决知识图谱不同领域自动转换的问题,同时,为了避免短缺的领域特定数据对自动转换造成的影响,本研究还提出了一种无监督语义分析的方法。
Apr, 2019
该论文提出了一种名为 JointGT 的图文联合表示学习模型,该模型可应用于知识图谱自动文本生成。相较于现有的预训练模型,JointGT 将考虑图结构因素进行编码,并利用新的预训练任务(包括分别对文本和图进行重构以及通过最优传输实现图文一致性对齐)来提高性能,进而在多个 KG-to-text 数据集上达到新的最佳表现。
Jun, 2021
该论文提出了使用图形遮盖的预训练策略来提高图到文本生成任务中预训练模型的效果,该方法取得了 WebNLG+2020 和 EventNarrative 数据集上的最新最好成果,并在低资源设置中表现出非常有效的结果。
Oct, 2022
将各种结构化数据(如表格、键值数据、知识图谱)统一为图形格式,并将不同的数据转化为文本生成任务视为图形到文本生成任务。为了有效利用输入图形的结构信息,我们提出了一种结构增强的预训练方法,通过设计一种结构增强的 Transformer 来进行 D2T 生成。经过大量实验证明了我们模型的有效性。
Jan, 2024
使用知识图谱和文本配对的数据集可以训练生成文本和生成知识图谱的前向和反向神经模型,但在配对不等效的数据集上训练的模型可能会导致更多的错误生成和较差的回想。本文通过生成具有不同噪声水平的数据集并进行实证验证了这一点,并通过循环评估发现人工创建的 WebNLG 比自动生成的 TeKGen 和 T-REx 要好。基于这些观察,我们构建了一个名为 LAGRANGE 的新的改进数据集,使用旨在改善知识图谱和文本之间等效性的启发式方法,并展示了每个启发式方法对循环评估的影响。我们还使用大型语言模型构建了两个合成数据集,并观察到这些数据集有助于在文本的循环生成上取得显著性能,但在知识图谱的循环生成上不够有效,可能是因为缺乏一致的底层本体论。
Sep, 2023