数据转文本生成的层级模型

Dec, 2019

A Hierarchical Model for Data-to-Text Generation

Clément Rebuffel, Laure Soulier, Geoffrey Scoutheeten, Patrick Gallinari

TL;DR本文提出了一种分层模型，对结构化数据进行编码，并通过数据元素级别和结构级别进行结构化数据转化为自然语言生成，实现了数据到文本的转换，并在 RotoWire 数据集上进行了定性和定量评估。

Abstract

Transcribing structured data into natural language descriptions has emerged as a challenging task, referred to as "data-to-text". These structures generally regroup multiple elements, as well as their attributes.

data-to-text hierarchical model encoder-decoder methods structured data rotowire

发现论文，激发创造

实体建模的数据生成

该论文介绍了一种以实体为中心的神经体系结构，用于生成数据到文本的任务，并通过在 RotoWire 基准和棒球领域的新数据集上进行的实验，表明该模型在自动和人类评估上优于竞争基线。

Jun, 2019

宏观规划的数据生成文本技术

该论文提出了一种基于神经网络的文本生成模型，包含宏观规划阶段和生成阶段，能够有效地生成准确且连贯的文本，并在自动和人工评估中表现出色。

Feb, 2021

基于结构化数据的订单规划神经文本生成

研究人员提出了一种基于训练有素的神经网络的文本生成模型，以便从结构化数据中（例如表格）生成自然文本，该模型能够捕捉不同字段之间的关系，以生成更流畅的文本。

Sep, 2017

内容选择与规划的数据转文本生成

本文提出了一种神经网络体系结构，它在不牺牲端到端训练的前提下，结合了内容选择和计划，通过将生成任务分解为两个阶段，根据数据记录生成内容计划并生成文档，在自动化和人类试验中都取得了优越表现，从而提高了最近发布的 RotoWire 数据集的最新技术。

Sep, 2018

HiStruct+: 基于层次结构信息的提取式文本摘要优化

通过提出的 HiStruct+ 模型，将 Transformer-based language models 中的层级结构信息显式注入到提取式文摘模型中，提高了 PubMed 和 arXiv 数据集中提取式文摘的 ROUGEs 指标，实验发现：数据集对模型效果的影响是关键因素，数据集中的明显层级结构可以取得更大的性能提升，而在模型的表现中，层级位置信息的贡献最大。

Mar, 2022

将结构化数据统一为图形以进行数据到文本预训练

将各种结构化数据（如表格、键值数据、知识图谱）统一为图形格式，并将不同的数据转化为文本生成任务视为图形到文本生成任务。为了有效利用输入图形的结构信息，我们提出了一种结构增强的预训练方法，通过设计一种结构增强的 Transformer 来进行 D2T 生成。经过大量实验证明了我们模型的有效性。

Jan, 2024

无监督分析的层次 Transformer

本文扩展了转换器模型，使其能够学习自然语言中的层次结构，得到了较好的无监督语法分析结果。

Mar, 2020

Tree-Transformer: 一种基于 Transformer 的树形数据纠错方法

本文提出 Tree-Transformer 神经网络架构，可用于树状结构数据的矫正任务，并在源代码和自然语言两个领域中分别取得了 25% 和 10% 的改进。

Aug, 2019

从字符到词语：分层预训练语言模型用于开放词汇语言理解

该研究引入了一种新颖的开放词汇语言模型，包含两个层次：词级和序列级，并通过对字符的表示以及全局的序列级别上下文调整，使模型直接处理字符序列，而不是子词或词级别的词汇表，取得了比强基准表现更好的效果，并且具有文本破坏和域移位的鲁棒性。

May, 2023

数据到文本生成的端到端内容和计划选择

本文介绍了多种扩展序列 - 序列模型的方法，旨在解决从结构化数据中生成流畅自然语言的问题，特别关注潜在内容选择过程的变体，包括复制注意力和覆盖解码。我们提出了一种基于多样集成的训练方法，以鼓励模型在训练过程中学习不同的句子模板，并通过比较其生成的文本在五个自动度量标准和人类评估中的结果，表明这些技术可以提高生成文本的质量。

Oct, 2018