进化 Transformer

ICMLJan, 2019

The Evolved Transformer

David R. So, Chen Liang, Quoc V. Le

TL;DR本研究旨在使用神经架构搜索技术应用于 Transformer 结构中，通过进化架构搜索技术，探索发现了性能更好的替代模型 Evolved Transformer，该模型不仅在 WMT 2014 英德翻译任务上取得了新的性能最优结果，且在模型容量更小的情况下性能优于原始模型。

Abstract

Recent works have highlighted the strength of the transformer architecture on sequence tasks while, at the same time, neural architecture search (NAS) has begun to outperform human-designed models. Our goal is to

transformer neural architecture search evolved transformer feed-forward sequence models wmt 2014

发现论文，激发创造

机器翻译加权变形器网络

本篇论文提出基于注意力机制的神经机器翻译新架构，采用自注意力和前馈神经网络层来避免递归和卷积，但是需要大量的参数和训练才能收敛。同时又提出了加权 Transformer 模型，通过修改注意力层架构，更快地提高 BLEU 得分表现，同时在英译德和英译法机器翻译任务中表现最优。

Nov, 2017

进化变换器：基于上下文的进化优化

通过元优化的方式，引入一种能够灵活表征一系列进化策略的因果 Transformer 架构 ——Evolution Transformer，用于从数据中直接发现强大的优化原理。通过 Evolution Transformer，结合进化算法蒸馏技术进行模型权重训练，我们得到一个在特定上下文中表现良好且能够很好泛化到其他具有挑战性的神经进化任务的模型。此外，我们还分析了 Evolution Transformer 的属性，并提出了一种全自引用训练的技术，从随机初始化开始并引导其自身的学习进程。我们提供了一个开源实现，网址为 https://<URL>

Mar, 2024

自然语言处理的增强 Transformer 架构

本文提出了一种新型 Transformer 结构，其特点是全层归一化、加权残差连接、利用强化学习的位置编码和零屏蔽自注意力。通过使用 Multi30k 翻译数据集进行双语评估替代，验证了所提出的增强型 Transformer 模型。结果显示，增强型 Transformer 的 BLEU 分数比原始 Transformer 模型高出了 202.96%。

Oct, 2023

注意力全是你需要的

本文提出一种基于注意力机制的 Transformer 模型，优于使用循环或卷积神经网络的现有机器翻译模型，且可并行训练、训练时间更短，使得 BLEU 评分得以显著提高，并成功将该模型应用于英语句法分析等任务。

Jun, 2017

知识追踪中基于进化的 Transformer 神经架构搜索

本研究旨在通过使用卷积操作增强 Transformer 的局部上下文建模能力，提出一种进化神经架构搜索方法来自动选择输入特征，并自动确定何时应用哪种操作以实现局部 / 全局上下文建模的平衡，实验结果表明该方法能有效地找到最优体系结构。

Oct, 2023

LiteTransformerSearch: 用于高效语言模型的无需训练的神经结构搜索

本文提出了一种名为 “轻量 Transformer 搜索（LTS）” 的新型网络自动设计算法，利用解码器参数作为感性代理，不需要任何模型训练，直接在目标设备上运行，方便快捷地制定任务性能与硬件成本间的 Pareto 前沿方案，应用到自回归语言模型中可获得高的准确率，同时摆脱了数百个 GPU 小时训练的碳足迹。

Mar, 2022

高效内存可微分 Transformer 架构搜索

本文提出了一种结合可微分架构搜索（DARTS）和多分裂可逆网络的算法，以提高在序列到序列数据集上的性能，并优于传统 Transformers。

May, 2021

机器翻译的深度 Transformer 模型学习

本篇研究论文提出了一种通过适当使用层归一化技术以及一种新的传递先前层组合方法，在机器翻译任务中，构建比 Transformer-Big 模型更深层的 Transformer 模型，并在 WMT'16 英德、NIST OpenMT'12 中英和更大的 WMT'18 中英任务中将深层系统（30/25 层编码器）与浅层 Transformer-Big / 基线（6 层编码器）相比，BLEU 分数提高了 0.4-2.4 点，而且深度模型的大小更小 1.6 倍并且训练速度更快 3 倍。

Jun, 2019

神经结构搜索的演化搜索空间

通过维护一个优化的搜索空间子集的神经搜索空间演化（NSE）方案，引入可学习的多分支设置，实现了神经架构设计的自动化和优化，以在 ImageNet 上实现优异的表现和响应延迟限制。

Nov, 2020

自适应深度变压器

本文介绍了一种 Transformer 模型，它可以在网络的不同阶段进行输出预测，并调整每个步骤所应用的不同图层，以调整计算量和模型容量。通过对 IWSLT 德英翻译的实验，我们的方法与 well tuned 换基础变压器的精度相匹配，同时只使用不到四分之一的解码器层数。

Oct, 2019