语言无关去词汇化泛化多语言概念生成自然语言

ACLMay, 2021

语言无关去词汇化泛化多语言概念生成自然语言

Generalising Multilingual Concept-to-Text NLG with Language Agnostic Delexicalisation

Giulio Zhou, Gerasimos Lampouras

TL;DR本文研究了跨语言多领域自然语言生成的挑战，提出了一种新的基于预训练多语言嵌入的去词法化方法，并设计了字符级后编辑模型来确保词语在重构时的正确形式，结果表明该方法在低资源语言上具有非常好的效果。

Abstract

Concept-to-text natural language generation is the task of expressing an input meaning representation in natural language. Previous approaches in this task have been able to generalise to rare or unseen instances by relying on a →

natural language generation multilingual models delexicalisation pretrained embeddings low resource languages

发现论文，激发创造

使用词汇化和非词汇化数据进行对话的自然语言生成

本研究提出了一种新的自然语言生成方法，使用循环神经网络进行任务导向对话的自然语言生成，它通过对齐词槽和相应值的方法，同时使用词汇化和非词汇化的组件，学习所有可用的数据，包括词槽价值对，从而生成更自然、语法更好的句子；通过迁移预训练的句子编码器中学到的权重，进一步提高了模型的性能，并获得人类评价良好的表现。

Jun, 2016

少样本神经序列建模的词汇学习

通过引入词汇翻译机制并使用多种词典学习算法来初始化这种机制，可以提高序列建模任务的系统化泛化能力。

Jun, 2021

基于预训练的跨语言自然语言生成

本文使用序列到序列模型进行自然语言生成任务，使用预训练的方法并将编码器和解码器用于单语和跨语言，实现零 - shot 跨语言转移、提高低资源语言的 NLG 性能。

Sep, 2019

利用大型语言模型进行少样本非语境化

通过一个大型语言模型，我们提出了一种使用少数样例的去语境化方法，并展示了该方法在多个领域上仅仅使用一小组示例就可以取得可行的性能表现。

Oct, 2023

Bilex Rx：大规模多语机器翻译的词汇数据增强

本文探讨使用双语词汇表在网络爬取的文本训练数据上进行无监督机器翻译的有效性，通过词汇数据增强，我们证明了其对于提升无监督翻译成果的重要性，并开源了 GATITOS，这是一个在 26 种低资源语言中表现最好的多语种词汇表。

Mar, 2023

通过语言模式的分层解码实现自然语言生成

介绍了一种基于语言模式的分层解码自然语言生成模型，与传统的基于 RNN 和 seq2seq 的编码器 - 解码器模型相比，该模型表现更好且模型规模更小。

Aug, 2018

Meta-X_{NLG}: 一种基于语言聚类的元学习方法，用于零样本跨语言传输和生成

本文提出了一种基于元学习和语言聚类的元学习框架（Meta-X$_{NLG}$），从不同的语言中学习可共享的结构，以实现对未知语言的统一跨语种转移。在两个自动生成任务（提取型文本摘要和问题生成）以及 30 种类型各异的语言和 5 个广泛使用的数据集上，该框架展示了相对于强基线的一致的改进效果，并且该模型的细致设计使得该端到端自动化生成设置不太容易受到意外翻译问题的影响，这在零 - shot 跨语种自然语言生成任务中是一个突出的问题。

Mar, 2022

多语言原型模型在自然语言理解任务中的跨语言可迁移性研究

本文提出一种方案，使用几个样本训练的神经网络和多语言 Transformer 基础模型之间协同作用的跨语言转移，以改进跨语言学习的性能，实验结果表明，我们的方法能够显著提高跨低资源语言与高资源语言之间的转移学习性能，进一步的结果证明了 meta-learning 的能力。

Jul, 2022

神经逻辑解码：带谓词逻辑约束的 (非) 监督神经文本生成

应用 NeuroLogic Decoding 算法可以实现满足复杂词汇约束条件下的流畅文本生成，其性能优于以往算法，特别是适用于无监督训练的模型。

Oct, 2020

ZeroNLG: 零射击多模态和多语言自然语言生成的领域对齐和自编码

该论文提出了一个直觉有效的零样本学习框架 ZeroNLG，它可以在英语、中文、德语和法语之间处理多个自然语言生成任务，包括图像到文本、视频到文本和文本到文本。该框架不需要任何标记的下游对来训练，并通过 bridging different domains and unsupervised multilingual auto-encoder 方法实现了目标句子在不同语言之间的生成。经过大量实验的验证，该框架生成的文本质量高，表现出色，优于现有的零样本方法。

Mar, 2023