条件语言生成的编码器无关适应
本篇论文提出了一种基于条件变分自编码器和编码 - 解码 Transformer 模型结合的神经数据增强方法,可以在句子级别捕捉自然语言处理任务的多样性,同时在监督任务上具有更好的泛化性能,实验证明该方法对于强化自然语言处理的下游任务有较好的效果。
May, 2022
本文提出一种单词级别的任务无关方法来评估多语言 Transformers 模型构建的上下文表示的对齐情况,并表明一些多语言 Transformer 模型的内部层表现优于其他明确对齐表示,甚至更符合更严格的多语言对齐定义。
Jul, 2022
通过大规模模型比较和实验验证,本文发现预训练的 Transformer 模型在自然语言处理任务的零样本泛化能力中,部分结构和预训练目标优于其他模型,这为模型架构和目标选择提供了指导。同时,本文研究了预训练模型跨结构和目标的迁移,并提供源代码和检查点。
Apr, 2022
本文介绍了一种简单且轻量级的任务条件模型,名为 Prompt Guided Transformer (PGT),通过设计一个 Prompt-conditioned Transformer 块,在自注意机制中引入任务特定的提示,以实现全局依赖建模和跨多个任务的参数高效特征适应。实验证明,该方法在使用更少的参数的同时,取得了最先进的结果,并在性能和参数大小之间保持了显著的平衡。
Jul, 2023
该研究提出了一种利用 Transformer 神经模型生成特定作者风格文章的方法,并采用去噪自编码器 (DAE) 损失,通过微调预训练语言模型来提高作者风格的产生,同时通过定量和定性方法证明该方法比现有技术更加有效。
Sep, 2019
本文提出了一种名为 GanLM 的基于生成对抗网络(GANs)的编码器 - 解码器预训练模型,利用辨别器和训练目标:替换标记检测和替换标记去噪,有选择地使用去噪数据以提高语言理解和生成能力,在语言生成基准测试中取得了最先进的性能。
Dec, 2022
本研究提出了使用大规模数据和先进技术针对 n-gram 的预训练编码器,并成功将其拓展到不同语言和领域中,得到了在多项 NLP 任务中表现优异的结果。
May, 2021
本篇论文提出一种基于自编码器和预训练 transformer 语言模型的文本表示学习方法,通过只训练句子编码和单层 transformer 解码器,获取良好的句子表示,超过了使用预训练 transformer 模型在各类文本任务中的表现,且参数规模更小。
Aug, 2021
本论文探讨了 Transformer 的多头注意力对于实现高质量翻译的重要性,并基于此开发了一种无需任何学习参数的 ' 硬编码 ' 注意力变量。替换编码器和解码器中所有学习自注意力头部与固定、与输入无关的高斯分布最小程度影响四个不同语言对的 BLEU 得分,但额外硬编码交叉注意力 (将解码器与编码器连接) 会显著降低 BLEU,这提示它比自注意力更重要。通过在仅有一个基于硬编码 Transformer 中添加一个学习交叉注意头部可弥补大部分 BLEU 下降。综合结果揭示了 Transformer 的哪些组件实际上是重要的,这将有助于引导未来工作开发更简单、更高效的基于注意力的模型。
May, 2020
本文提出了一种基于预训练生成式 transformer 网络的方法 Future Sight,以实现未来条件限制的故事生成任务,在保留自注意机制的同时,增加了对未来情节的建模,使生成内容更有逻辑性和连贯性。
Dec, 2022