用贪心的方式对层权重矩阵进行排序，提高 Transformer 的翻译效果

Feb, 2023

用贪心的方式对层权重矩阵进行排序，提高 Transformer 的翻译效果

Greedy Ordering of Layer Weight Matrices in Transformers Improves Translation

Elicia Ye

TL;DR利用 AEIUOrder 算法通过改变编码器权重矩阵的顺序来最大化总的训练程度，从而提高 Transformer-based encoder-decoder 模型的翻译质量。

Abstract

Prior work has attempted to understand the internal structures and functionalities of transformer-based encoder-decoder architectures on the level of multi-head attention and feed-forward sublayers. Interpretatio

transformer-based encoder-decoder self-attention feed-forward sublayers ht-sr metrics translation

发现论文，激发创造

通过重新排序子层来改善 Transformer 模型

研究了不同顺序的多层 Transformer 结构对性能的影响，提出了一种新的顺序 —— 三明治变压器模型，并在多个语言模型基准测试中验证了其性能优势。

Nov, 2019

IOT: Transformer 结构的实例层重新排序

本文发现每一个数据样本实际上喜欢不同的层序，为此将实例层次重排序引入了 Transformer 模型中以生成变体函数，最终通过多个实验验证表明，此算法可以显著提高语言建模的性能。

Mar, 2021

共享注意力权重用于快速 Transformer

本文提出一种基于共享注意力权重和隐藏状态重用的快速、轻量级的注意力模型，用于加速 Transformer 机器翻译系统，在十项 WMT 和 NIST OpenMT 任务上实现了平均 1.3 倍的速度提升（几乎不降低 BLEU）和与 Aan 模型的 1.8 倍加速（比没有使用注意力缓存的基线高出 16 倍）。

Jun, 2019

LoRAP：大型语言模型的 Transformer 子层应采用差异化结构压缩

本研究提出了一种混合压缩模型 LoRAP，通过输入激活加权奇异值分解方法和基于低秩度差异的参数分配方案，增强了 Transformer 模型中 Multi-Head Self-Attention 子层的低秩特性，并提出了无梯度的结构化通道剪枝方法用于 Feed-Forward Network 子层，实验证明我们的提议在多重压缩比下优于之前的结构化压缩方法。

Apr, 2024

机器翻译加权变形器网络

本篇论文提出基于注意力机制的神经机器翻译新架构，采用自注意力和前馈神经网络层来避免递归和卷积，但是需要大量的参数和训练才能收敛。同时又提出了加权 Transformer 模型，通过修改注意力层架构，更快地提高 BLEU 得分表现，同时在英译德和英译法机器翻译任务中表现最优。

Nov, 2017

神经机器翻译的显式重排序

本文介绍了如何使用双语平行数据集来模拟目标语序，在改进了位置编码机制的基础上，提出了一种新的序列重排序方法来显式地模拟源语句子的重排序信息，同时实验证明，该方法在多种翻译任务中均有效。

Apr, 2020

一层自注意力变压器使用低秩权重矩阵是通用逼近器吗？

通过澄清 softmax 函数与 Boltzmann 算子之间的联系，我们证明具有低秩权重矩阵的自注意力单层具备完美捕获整个输入序列上下文的能力，从而表明单层 Transformer 具有有限样本的记忆能力，并且由一个自注意力层和两个前馈神经网络组成的 Transformer 是紧致域上连续函数的通用逼近器。

Jul, 2023

高效压缩子层的 Transformer 解码器

通过压缩 Transformer 模型的 decoder 层中 sub-layers 构建模块，提出了 Compressed Attention Network，实现了更高的并行性，性能与强基线相当，速度加快 1.42 倍。

Jan, 2021

GTrans: 分组融合转换器层用于神经机器翻译

该研究提出了一种名为 Group-Transformer 的模型，通过将编码器和解码器的多层表示分组，融合这些组特征来生成目标词，实现了在多语种翻译任务中的表现优于 Transformer 的一致收益。

Jul, 2022

神经机器翻译的高效推断

该论文通过深度编码器和浅层解码器结构、多头注意力修剪以及将解码器自注意力替换为简化的循环单元等方法，可以在不降低翻译质量的情况下，在 CPU 和 GPU 上分别获得高达 109% 和 84% 的加速，并将参数数量减少 25%。

Oct, 2020