CycleGT: 通过循环训练实现无监督图到文本和文本到图生成

Jun, 2020

CycleGT: 通过循环训练实现无监督图到文本和文本到图生成

CycleGT: Unsupervised Graph-to-Text and Text-to-Graph Generation via Cycle Training

Qipeng Guo, Zhijing Jin, Xipeng Qiu, Weinan Zhang, David Wipf...

TL;DR运用循环生成对抗网络来进行无监督学习，同时有效解决 G2T 和 T2G 领域数据稀缺问题。

Abstract

Two important tasks at the intersection of knowledge graphs and natural language processing are graph-to-text (G2T) and text-to-graph (T2G) conversion. Due to the difficulty and high cost of data collection, the

graph-to-text text-to-graph unsupervised training data scarcity deep learning

发现论文，激发创造

一个多任务半监督框架用于 Text2Graph 和 Graph2Text

该研究提出了一种基于 T5 架构的多任务半监督环境下联合学习文本图谱提取和图谱生成的解决方案，此方法在 WebNLG 数据集中表现优于无监督最新成果，且相较于有监督模型更具一致性。

Feb, 2022

循环训练实现低资源数据文本生成

本文提出了一种基于无监督学习的方法 —— 循环训练，用于改善从结构化数据向自然语言文本的转化问题，在四个数据集中，这种方法表现得像完全监督方法一样出色，通过自动评价和人工评估表明，循环训练策略的不同对于降低文本生成错误类型的有效性也不同。

May, 2023

INFINITY: 一种简单却有效的无监督图文相互转换框架

提出了 INFINITY 这种简单而有效的无监督方法，该方法不需要外部注释工具或额外的并行信息，通过对预训练 seq2seq 模型的微调，INFINITY 将 G2T 和 T2G 都视为双向序列生成任务，并设计了一种基于回译的框架来自动生成连续的合成并行数据，通过利用奖励增强最大似然度的优势，采用基于奖励的训练损失来获得合理的具有结构信息的图形序列从源文本中。该完全无监督的框架在 G2T 和 T2G 任务中被实证验证优于现有最先进的基线。

Sep, 2022

G2T：基于预训练语言模型和社区检测的主题建模简单通用框架

本文提出了一种名为图向话题（G2T）的框架，该框架能够使用预训练语言模型获取文档表示，并通过语义图和社区检测等方法进行主题建模。自动评估结果表明，G2T 在英文和中文文档上均取得了最优表现，并且比基线模型产生了更好的可解释性和覆盖范围。

Apr, 2023

基于 LM 的文本增强的神经数据到文本生成

通过少量文本样本的文本增强和使用循环一致性作为目标实现弱监督训练范式在数据到文本生成中的有效性。

Feb, 2021

一个无监督的联合系统：从知识图谱和语义解析生成文本

通过无监督文本生成的方法，本研究旨在解决知识图谱不同领域自动转换的问题，同时，为了避免短缺的领域特定数据对自动转换造成的影响，本研究还提出了一种无监督语义分析的方法。

Apr, 2019

JointGT: 知识图谱文本联合表征学习用于文本生成

该论文提出了一种名为 JointGT 的图文联合表示学习模型，该模型可应用于知识图谱自动文本生成。相较于现有的预训练模型，JointGT 将考虑图结构因素进行编码，并利用新的预训练任务（包括分别对文本和图进行重构以及通过最优传输实现图文一致性对齐）来提高性能，进而在多个 KG-to-text 数据集上达到新的最佳表现。

Jun, 2021

自监督图层掩蔽预训练用于图到文本生成

该论文提出了使用图形遮盖的预训练策略来提高图到文本生成任务中预训练模型的效果，该方法取得了 WebNLG+2020 和 EventNarrative 数据集上的最新最好成果，并在低资源设置中表现出非常有效的结果。

Oct, 2022

将结构化数据统一为图形以进行数据到文本预训练

将各种结构化数据（如表格、键值数据、知识图谱）统一为图形格式，并将不同的数据转化为文本生成任务视为图形到文本生成任务。为了有效利用输入图形的结构信息，我们提出了一种结构增强的预训练方法，通过设计一种结构增强的 Transformer 来进行 D2T 生成。经过大量实验证明了我们模型的有效性。

Jan, 2024

基于循环评估的配对知识图谱 - 文本数据集构建

使用知识图谱和文本配对的数据集可以训练生成文本和生成知识图谱的前向和反向神经模型，但在配对不等效的数据集上训练的模型可能会导致更多的错误生成和较差的回想。本文通过生成具有不同噪声水平的数据集并进行实证验证了这一点，并通过循环评估发现人工创建的 WebNLG 比自动生成的 TeKGen 和 T-REx 要好。基于这些观察，我们构建了一个名为 LAGRANGE 的新的改进数据集，使用旨在改善知识图谱和文本之间等效性的启发式方法，并展示了每个启发式方法对循环评估的影响。我们还使用大型语言模型构建了两个合成数据集，并观察到这些数据集有助于在文本的循环生成上取得显著性能，但在知识图谱的循环生成上不够有效，可能是因为缺乏一致的底层本体论。

Sep, 2023