迭代文本编辑的数据生成
DataTuner 是一个神经网络端到端生成数据文本的系统,结合 fine-tuned 语言模型和语义保真分类器,仅需最少的数据特定启发式、实体去词法和后处理即可实现所有端到端学习,可以在多种数据集上取得最先进的结果并获得比传统启发式度量更好的语义保真度。
Apr, 2020
本文利用预处理语言模型进行通用领域训练,使用由维基百科构建的 WikiFluent 数据集,在 WebNLG 和 E2E 数据集上进行实验证明,使用单个项目描述生成 D2T 是可行的,且可以从 RDF 三元组中完成零 - shot D2T 生成。
Mar, 2022
本研究通过提出一种交互式文本生成设置,在其中用户通过向系统发出编辑现有文本的命令与系统进行交互,来解决神经文本生成中一次生成的局限性,并介绍了一种新的文本编辑任务。通过使用 Wikipedia 中的单句编辑构成了一个名为 WikiDocEdits 的数据集,使用基于 transformer 的模型在其中进行训练以提高其自动产生的成果和用户评估结果。在此基础上,本研究分别从经验和定性分析方面展示了该模型的性能表现。
Oct, 2020
该论文介绍了一种以实体为中心的神经体系结构,用于生成数据到文本的任务,并通过在 RotoWire 基准和棒球领域的新数据集上进行的实验,表明该模型在自动和人类评估上优于竞争基线。
Jun, 2019
该论文提出一种搜索和学习的方法来解决低语义覆盖率问题,进而提高 data-to-text 生成中预训练语言模型的效率,并在 E2E 和 WikiBio 数据集上实现了高性能。
Dec, 2021
本论文提出了一种使用预训练的自然语言推理神经模型来衡量数据到文本生成语义准确性的新度量方法,并利用该方法来检验两个方向之间的文本蕴含,从而揭示输出中的遗漏或虚构。实验证明,该指标能够在鉴定系统输出的错误方面达到高的精度。
Nov, 2020
研究采用新颖的数据生成文本的方式,对当前的文本生成方法进行了探究,并通过提出一系列抽取性评估方法和使用当前神经生成方法得到基线结果。实验结果表明,这些模型产生流畅的文本,但未能令人信服地近似人类生成的文档,甚至模板化的基线方法在某些指标上超过了这些神经模型,尽管复制和重构扩展会导致明显的改进。
Jul, 2017
LaserTagger 是一种将文本生成转换为文本编辑任务的序列标注方法,并通过使用 BERT 编码器和自回归 Transformer 解码器的新型模型来预测编辑操作。在四个任务中测试表明,LaserTagger 在三个任务上取得了新的最优结果,并在训练示例数量有限的情况下优于 seq2seq 模型。同时,LaserTagger 在推理时的标注速度比相似的 seq2seq 模型快两个数量级。
Sep, 2019