利用 AEIUOrder 算法通过改变编码器权重矩阵的顺序来最大化总的训练程度,从而提高 Transformer-based encoder-decoder 模型的翻译质量。
Feb, 2023
本文研究了基于深度自回归 Transformer 模型在语言建模和语音识别中的应用,探索了配置 Transformer 模型进行语言建模的方法和深度 Transformer 语言模型是否需要位置编码,证明了深度 Transformer 语言模型可以自动利用序列中的位置信息,并能在语音识别模型中得到应用。
May, 2019
该研究提出了一种新的模型,该模型仅由注意力层组成。在具体实现中,加入了持续性存储向量来代替前馈层,这样我们可以去除前馈层但不会降低 transformer 的性能。研究显示,该模型在标准字符和词级语言建模基准上表现出良好的效果。
Jul, 2019
通过实验我们发现,transformer 模型中的前馈层作为键值内存操作,其键与训练示例中的文本模式相关,并且每个值在输出词汇表上引入一个分布。同时利用残差连接使得前馈层的输出分布集中于出现在每个模式后的可能出现的标记。
Dec, 2020
使用前馈网络替代自注意力模型的编码器中的上层自注意力层,不会造成语音识别性能降低,在较低的自注意力层对输入进行编码已足够获取丰富的上下文信息。
May, 2020
通过分析 Transformer 语言模型中的机制,研究揭示了其通过低秩通信信道在不同层之间传递和存储特征的方式,通过分解注意力头权重矩阵进而预测层间相互作用的方法,以及利用该机制改善内部模型表示和权重来提升任务性能的结构学习,为进一步分析复杂行为提供帮助。
Jun, 2024
该研究改进预训练模型,采用多种不同类型和顺序的神经网络层,采用进化算法寻找最优结构,在多个任务中优于现有的 BERT 模型。
Jun, 2021
通过分析 Transformer 中的前向模块,研究表明其可以被视为一系列键值记忆,提出了关于多语言模型中神经元对不同语言的响应不平等的假设,并通过实验证实了此假设。
Oct, 2023
本文发现每一个数据样本实际上喜欢不同的层序,为此将实例层次重排序引入了 Transformer 模型中以生成变体函数,最终通过多个实验验证表明,此算法可以显著提高语言建模的性能。
Mar, 2021
通过压缩 Transformer 模型的 decoder 层中 sub-layers 构建模块,提出了 Compressed Attention Network,实现了更高的并行性,性能与强基线相当,速度加快 1.42 倍。
Jan, 2021