- ACL利用预训练模型描述知识图谱中的关系
本文研究预训练语言模型在数据到文本生成中使用关系标签生成语义准确输出时的问题,并通过实验发现,使用多样化的关系标签数据可以提高模型在生成新领域的语义准确性。
- EMNLPASDOT:基于预训练语言模型的任意样本数据到文本生成
提出了 Any-Shot Data-to-Text (ASDOT) 方法,通过数据消歧和句子融合两个步骤,使用预训练语言模型实现灵活地进行零样本学习的数据文本生成,实验证明 ASDOT 能够显著提高生成效果。
- 高召回率的渐进式编辑数据文本生成
该研究通过利用 Transformer 模型的 'Asymmetric Generation' 现象并结合 ProEdit 方法,提出了一种改进的 Data-to-text generation 方法,有效提高了在 ToTTo 数据集上的性 - 神经数据转换为文本生成的创新
本文调查了神经元数据到文本生成的方法、基准数据集和评估协议,突出了技术应用阶段及其在自然语言生成领域中的前景。
- 基于小型数据集的神经数据 - 文本生成:在大型语言模型之上比较两种半监督学习方法的附加值
本研究探讨了半监督学习与预训练语言模型在数据生成文本方面的效果。结果表明,半监督学习方法可以增强输出质量和多样性,即使已经使用了预训练语言模型。
- R2D2: 鲁棒性数据到文本的替换检测
R2D2 是一种数据到文本生成的训练框架,它通过训练系统作为生成器和忠诚度鉴别器,加上替换检测和非似然性学习任务,来解决不忠实的数据到文本生成问题。我们还提出了两种采样不忠实句子的方法和 NER 基于的指标来评估 D2T 生成的保真度。实验 - 预训练语言模型中数据到文本生成的困难之处是什么?
本文对预训练语言模型和自回归预训练语言模型在 DART 数据集上的 D2T 任务表现进行实证研究,考虑了任务数据量的大小,以及零样本和少样本学习以及模型微调等方式,研究表明需要更多仔细手工策划的数据集来改善基于此的 D2T 生成任务。
- ACL零样本数据到文本生成的神经管线
本文利用预处理语言模型进行通用领域训练,使用由维基百科构建的 WikiFluent 数据集,在 WebNLG 和 E2E 数据集上进行实验证明,使用单个项目描述生成 D2T 是可行的,且可以从 RDF 三元组中完成零 - shot D2T - ACL变分序列计划数据生成技术
本论文考虑数据到文本生成的任务,着重提出了一种生成长篇文章的神经模型,增加了计划组件来组织高层次信息,在结构化变分模型的帮助下逐步推理出潜在计划,从而生成文本。在 RotoWire 和 MLB 两个数据到文本基准测试中,本模型表现优于基准模 - AAAI搜索与学习:改进数据到文本生成的语义涵盖率
该论文提出一种搜索和学习的方法来解决低语义覆盖率问题,进而提高 data-to-text 生成中预训练语言模型的效率,并在 E2E 和 WikiBio 数据集上实现了高性能。
- ACL使用自我训练提高数据到文本生成的组合泛化能力
本文研究了结构化意义表示到自然语言生成中 T5 模型的泛化问题,提出了基于模板的输入表示和基于 fine-tuned BLEURT 的自训练方法来改善模型的泛化和性能,在少样本场景下通过常用的 SGD 和 Weather 基准测试取得了比强 - EMNLP计划 - 生成:通过计划控制数据到文本的生成
本研究提出了一种 Plan-then-Generate(PlanGen)框架,以改善神经数据生成文本模型的可控性,并通过两个基准数据集 ToTTo 和 WebNLG 进行了广泛的实验和分析,结果显示,我们的模型能够控制生成输出的句内和句间结 - 从科学表格中学习推理进行文本生成
本研究引入了 SciGen,一个考虑推理的数据到文本生成任务的数据集。SciGen 是第一个评估生成模型在复杂输入结构下算术推理能力的数据集,并表明表格描述需要考虑表格值的推理。在 SciGen 上进行实验表明,目前数据到文本生成模型的推理 - ACL基于 LM 的文本增强的神经数据到文本生成
通过少量文本样本的文本增强和使用循环一致性作为目标实现弱监督训练范式在数据到文本生成中的有效性。
- ACL训练样本的顺序重要吗?使用课程学习改进神经数据转文本生成
本文研究从结构化数据和文本对中选择训练样本以优化 CURRICULUM LEARNING,并提出了一种软编辑距离度量方法,实验表明,该方法能够提高训练速度和性能。
- 在数据到文本生成中控制单词级别的幻觉
通过使用多分支解码器,结合基于共现分析和依存解析的简单高效的评分过程,针对 Data-to-Text Generation 的问题 ——Hallucinations 作出了研究,成功地减少了 Hallucinations,同时保持生成文本的 - ACL宏观规划的数据生成文本技术
该论文提出了一种基于神经网络的文本生成模型,包含宏观规划阶段和生成阶段,能够有效地生成准确且连贯的文本,并在自动和人工评估中表现出色。
- EMNLP使用最近邻居剪辑拼接生成数据文本
通过直接拼接选取的文本片段来生成自然语言文本,学习一种策略模型,利用加入和替换文本片段的方式构建自然语言生成模型,并证明了利用加权上下文无关文法的语法分析算法可以找到最短的 oracle 生成过程,最终结果与强基线模型在自动和人类评估上表现 - ACLWikiTableT: 为生成维基百科文章章节而设计的大规模数据转文本语料库
本文针对将生成维基百科文章作为一种数据到文本生成任务的问题,创建了一个大规模数据集 WikiTableT,该数据集包含了数以百万计的实例,覆盖了广泛的主题,并且包含了多种不同水平灵活性的生成任务。在该数据集上进行了多种训练和解码策略的评估和 - 使用自然语言推理评估数据生成文本的语义准确性
本论文提出了一种使用预训练的自然语言推理神经模型来衡量数据到文本生成语义准确性的新度量方法,并利用该方法来检验两个方向之间的文本蕴含,从而揭示输出中的遗漏或虚构。实验证明,该指标能够在鉴定系统输出的错误方面达到高的精度。