该论文介绍了一种以实体为中心的神经体系结构,用于生成数据到文本的任务,并通过在 RotoWire 基准和棒球领域的新数据集上进行的实验,表明该模型在自动和人类评估上优于竞争基线。
Jun, 2019
该论文提出了一种基于神经网络的文本生成模型,包含宏观规划阶段和生成阶段,能够有效地生成准确且连贯的文本,并在自动和人工评估中表现出色。
Feb, 2021
研究人员提出了一种基于训练有素的神经网络的文本生成模型,以便从结构化数据中(例如表格)生成自然文本,该模型能够捕捉不同字段之间的关系,以生成更流畅的文本。
Sep, 2017
本文提出了一种神经网络体系结构,它在不牺牲端到端训练的前提下,结合了内容选择和计划,通过将生成任务分解为两个阶段,根据数据记录生成内容计划并生成文档,在自动化和人类试验中都取得了优越表现,从而提高了最近发布的 RotoWire 数据集的最新技术。
Sep, 2018
通过提出的 HiStruct+ 模型,将 Transformer-based language models 中的层级结构信息显式注入到提取式文摘模型中,提高了 PubMed 和 arXiv 数据集中提取式文摘的 ROUGEs 指标,实验发现:数据集对模型效果的影响是关键因素,数据集中的明显层级结构可以取得更大的性能提升,而在模型的表现中,层级位置信息的贡献最大。
Mar, 2022
将各种结构化数据(如表格、键值数据、知识图谱)统一为图形格式,并将不同的数据转化为文本生成任务视为图形到文本生成任务。为了有效利用输入图形的结构信息,我们提出了一种结构增强的预训练方法,通过设计一种结构增强的 Transformer 来进行 D2T 生成。经过大量实验证明了我们模型的有效性。
Jan, 2024
本文扩展了转换器模型,使其能够学习自然语言中的层次结构,得到了较好的无监督语法分析结果。
Mar, 2020
本文提出 Tree-Transformer 神经网络架构,可用于树状结构数据的矫正任务,并在源代码和自然语言两个领域中分别取得了 25% 和 10% 的改进。
Aug, 2019
该研究引入了一种新颖的开放词汇语言模型,包含两个层次:词级和序列级,并通过对字符的表示以及全局的序列级别上下文调整,使模型直接处理字符序列,而不是子词或词级别的词汇表,取得了比强基准表现更好的效果,并且具有文本破坏和域移位的鲁棒性。
May, 2023
本文介绍了多种扩展序列 - 序列模型的方法,旨在解决从结构化数据中生成流畅自然语言的问题,特别关注潜在内容选择过程的变体,包括复制注意力和覆盖解码。我们提出了一种基于多样集成的训练方法,以鼓励模型在训练过程中学习不同的句子模板,并通过比较其生成的文本在五个自动度量标准和人类评估中的结果,表明这些技术可以提高生成文本的质量。
Oct, 2018