条件语言生成的编码器无关适应

Aug, 2019

Encoder-Agnostic Adaptation for Conditional Language Generation

Zachary M. Ziegler, Luke Melas-Kyriazi, Sebastian Gehrmann, Alexander M. Rush

TL;DR本研究探讨了一种称为伪自关注的方法，将任意条件输入直接注入到预训练的转换器模型中，提高了语言生成任务的性能，保证了数据效率。

Abstract

Large pretrained language models have changed the way researchers approach discriminative natural language understanding tasks, leading to the dominance of approaches that adapt a pretrained model for arbitrary downstream tasks. However it is an open-question how to use similar techniq

pretrained language models language generation conditioning self attention data efficiency

发现论文，激发创造

变形金刚作为神经增强器：通过变分贝叶斯实现类条件句子生成

本篇论文提出了一种基于条件变分自编码器和编码 - 解码 Transformer 模型结合的神经数据增强方法，可以在句子级别捕捉自然语言处理任务的多样性，同时在监督任务上具有更好的泛化性能，实验证明该方法对于强化自然语言处理的下游任务有较好的效果。

May, 2022

多语言变形金刚编码器：基于词级别的任务无关评估

本文提出一种单词级别的任务无关方法来评估多语言 Transformers 模型构建的上下文表示的对齐情况，并表明一些多语言 Transformer 模型的内部层表现优于其他明确对齐表示，甚至更符合更严格的多语言对齐定义。

Jul, 2022

零 - shot 泛化哪种语言模型架构和预训练目标最佳？

通过大规模模型比较和实验验证，本文发现预训练的 Transformer 模型在自然语言处理任务的零样本泛化能力中，部分结构和预训练目标优于其他模型，这为模型架构和目标选择提供了指导。同时，本文研究了预训练模型跨结构和目标的迁移，并提供源代码和检查点。

Apr, 2022

基于提示的多任务稠密预测 Transformer

本文介绍了一种简单且轻量级的任务条件模型，名为 Prompt Guided Transformer (PGT)，通过设计一个 Prompt-conditioned Transformer 块，在自注意机制中引入任务特定的提示，以实现全局依赖建模和跨多个任务的参数高效特征适应。实验证明，该方法在使用更少的参数的同时，取得了最先进的结果，并在性能和参数大小之间保持了显著的平衡。

Jul, 2023

针对非平行作者风格改写的语言模型适应性

该研究提出了一种利用 Transformer 神经模型生成特定作者风格文章的方法，并采用去噪自编码器 (DAE) 损失，通过微调预训练语言模型来提高作者风格的产生，同时通过定量和定性方法证明该方法比现有技术更加有效。

Sep, 2019

GanLM: 带有辅助鉴别器的编码器 - 解码器预训练

本文提出了一种名为 GanLM 的基于生成对抗网络（GANs）的编码器 - 解码器预训练模型，利用辨别器和训练目标：替换标记检测和替换标记去噪，有选择地使用去噪数据以提高语言理解和生成能力，在语言生成基准测试中取得了最先进的性能。

Dec, 2022

ZEN 2.0: N-Gram 增强文本编码器的继续训练和适应

本研究提出了使用大规模数据和先进技术针对 n-gram 的预训练编码器，并成功将其拓展到不同语言和领域中，得到了在多项 NLP 任务中表现优异的结果。

May, 2021

基于 Transformer 语言模型的句子瓶颈自编码器

本篇论文提出一种基于自编码器和预训练 transformer 语言模型的文本表示学习方法，通过只训练句子编码和单层 transformer 解码器，获取良好的句子表示，超过了使用预训练 transformer 模型在各类文本任务中的表现，且参数规模更小。

Aug, 2021

神经机器翻译的硬编码高斯注意力

本论文探讨了 Transformer 的多头注意力对于实现高质量翻译的重要性，并基于此开发了一种无需任何学习参数的 ' 硬编码 ' 注意力变量。替换编码器和解码器中所有学习自注意力头部与固定、与输入无关的高斯分布最小程度影响四个不同语言对的 BLEU 得分，但额外硬编码交叉注意力 (将解码器与编码器连接) 会显著降低 BLEU，这提示它比自注意力更重要。通过在仅有一个基于硬编码 Transformer 中添加一个学习交叉注意头部可弥补大部分 BLEU 下降。综合结果揭示了 Transformer 的哪些组件实际上是重要的，这将有助于引导未来工作开发更简单、更高效的基于注意力的模型。

May, 2020

未来视角：利用大型预训练语言模型进行动态故事生成

本文提出了一种基于预训练生成式 transformer 网络的方法 Future Sight，以实现未来条件限制的故事生成任务，在保留自注意机制的同时，增加了对未来情节的建模，使生成内容更有逻辑性和连贯性。

Dec, 2022