EMNLPMar, 2016

基于结构化数据的神经文本生成技术研究及其在传记领域的应用

TL;DR本文介绍了一个神经模型,用于在大型、丰富的领域中进行从概念到文本的生成。该模型在维基百科的传记新数据集上进行了实验,该数据集比现有资源大一个数量级,具有 70 万个样本,并且词汇量非常丰富,与 Weathergov 或 Robocup 的几百个词相比。我们的神经模型基于最近对于文本生成的条件神经语言模型的工作。为了处理大量单词,我们扩展这些模型,将固定的词汇表与从输入数据库传输特定于样本的词汇的复制操作混合生成的输出句子。我们的神经模型在这项任务上明显优于经过调整的经典 Kneser-Ney 语言模型,BLEU 值近 15。