语言无关去词汇化泛化多语言概念生成自然语言
本研究提出了一种新的自然语言生成方法,使用循环神经网络进行任务导向对话的自然语言生成,它通过对齐词槽和相应值的方法,同时使用词汇化和非词汇化的组件,学习所有可用的数据,包括词槽价值对,从而生成更自然、语法更好的句子;通过迁移预训练的句子编码器中学到的权重,进一步提高了模型的性能,并获得人类评价良好的表现。
Jun, 2016
本文使用序列到序列模型进行自然语言生成任务,使用预训练的方法并将编码器和解码器用于单语和跨语言,实现零 - shot 跨语言转移、提高低资源语言的 NLG 性能。
Sep, 2019
本文探讨使用双语词汇表在网络爬取的文本训练数据上进行无监督机器翻译的有效性,通过词汇数据增强,我们证明了其对于提升无监督翻译成果的重要性,并开源了 GATITOS,这是一个在 26 种低资源语言中表现最好的多语种词汇表。
Mar, 2023
介绍了一种基于语言模式的分层解码自然语言生成模型,与传统的基于 RNN 和 seq2seq 的编码器 - 解码器模型相比,该模型表现更好且模型规模更小。
Aug, 2018
本文提出了一种基于元学习和语言聚类的元学习框架(Meta-X$_{NLG}$),从不同的语言中学习可共享的结构,以实现对未知语言的统一跨语种转移。在两个自动生成任务(提取型文本摘要和问题生成)以及 30 种类型各异的语言和 5 个广泛使用的数据集上,该框架展示了相对于强基线的一致的改进效果,并且该模型的细致设计使得该端到端自动化生成设置不太容易受到意外翻译问题的影响,这在零 - shot 跨语种自然语言生成任务中是一个突出的问题。
Mar, 2022
本文提出一种方案,使用几个样本训练的神经网络和多语言 Transformer 基础模型之间协同作用的跨语言转移,以改进跨语言学习的性能,实验结果表明,我们的方法能够显著提高跨低资源语言与高资源语言之间的转移学习性能,进一步的结果证明了 meta-learning 的能力。
Jul, 2022
应用 NeuroLogic Decoding 算法可以实现满足复杂词汇约束条件下的流畅文本生成,其性能优于以往算法,特别是适用于无监督训练的模型。
Oct, 2020
该论文提出了一个直觉有效的零样本学习框架 ZeroNLG,它可以在英语、中文、德语和法语之间处理多个自然语言生成任务,包括图像到文本、视频到文本和文本到文本。该框架不需要任何标记的下游对来训练,并通过 bridging different domains and unsupervised multilingual auto-encoder 方法实现了目标句子在不同语言之间的生成。经过大量实验的验证,该框架生成的文本质量高,表现出色,优于现有的零样本方法。
Mar, 2023