线性成本推理变压器的跨体系结构迁移学习

Apr, 2024

线性成本推理变压器的跨体系结构迁移学习

Cross-Architecture Transfer Learning for Linear-Cost Inference Transformers

Sehyun Choi

TL;DR通过改变自注意块的设计以实现线性成本推理（LCI），提出了交叉架构迁移学习（XATL）来减少训练时间，并在相同的计算预算内收敛到更好的最小值和 2.6% 更强的模型性能。

Abstract

Recently, multiple architectures has been proposed to improve the efficiency of the transformer language models through changing the design of the self-attention block to have a linear-cost inference (LCI). A notable approach in this realm is the State-Space Machines (SSMs) architectur

transformer language models state-space machines (ssms)linear-cost inference (lci)cross-architecture transfer learning (xatl)self-attention-based transformers

发现论文，激发创造

共享注意力权重用于快速 Transformer

本文提出一种基于共享注意力权重和隐藏状态重用的快速、轻量级的注意力模型，用于加速 Transformer 机器翻译系统，在十项 WMT 和 NIST OpenMT 任务上实现了平均 1.3 倍的速度提升（几乎不降低 BLEU）和与 Aan 模型的 1.8 倍加速（比没有使用注意力缓存的基线高出 16 倍）。

Jun, 2019

循环线性变换

通过引入循环替代方案以解决 transformer 自注意机制中的两个局限，本文提出了一种能够以较低成本进行推理并有效利用长程依赖的 transformer 自注意机制替代方法，在强化学习问题中实现了性能的提升。

Oct, 2023

Attention Link: 一种高效的基于注意力机制的低资源机器翻译架构

本文提出了一种新的架构，即注意力链接（AL），以在低训练资源情况下改善 transformer 模型表现，并在多个翻译任务中进行了实验，结果表明该注意力链接可以显著改善 BLEU 得分，实现了 37.9 的 BLEU 分数，且在 IWSLT14 de-en 任务中达到了新的 sota。

Feb, 2023

Small-E：用线性注意力实现高效语音合成的小型语言模型

最近关于文本到语音合成（TTS）的研究表明，使用语言模型驱动的 TTS 展示了卓越的能力，能够实现自然度和零样本声音克隆。本文提出使用新兴递归架构替代变压器，并引入专门的交叉关注机制以减少重复和跳跃问题。结果，我们的架构能够在长音频样本上高效训练，并在相同规模的基准模型上实现最先进的零样本声音克隆。

Jun, 2024

机器翻译加权变形器网络

本篇论文提出基于注意力机制的神经机器翻译新架构，采用自注意力和前馈神经网络层来避免递归和卷积，但是需要大量的参数和训练才能收敛。同时又提出了加权 Transformer 模型，通过修改注意力层架构，更快地提高 BLEU 得分表现，同时在英译德和英译法机器翻译任务中表现最优。

Nov, 2017

XNOR-FORMER: 长语音 Transformer 准确近似学习

本研究开发出一种新型的线性变压器，通过检验自我关注中关键查询产品的特性，发现其在语音识别和语音摘要方面优于现有的方法。

Oct, 2022

跨架构正对增强自监督学习效果

本研究采用交叉神经网络和 CNN 的自我监督学习方法（CASS），相比现有的状态 - of-the-art 的自我监督学习方法，在四个不同的数据集上表现更好，而且时间更短，对于批量大小和训练时期的更改也更具鲁棒性，开源的代码可以在指定的 URL 下载。

Jan, 2023

具有局部约束的源目标自注意力

本论文提出了一种基于 transformer 模型的新型神经机器翻译架构，采用自注意力机制加局部约束对 attention 接受场进行改进，实现了在多个翻译基准数据集上的最新 BLEU 最优结果。

May, 2019

Transformer 模型的轻松注意力

本文通过实验表明，构建基于 relaxed attention 的 transformer 架构，可以通过抑制自动回归 transformer 解码器的内部语言模型，实现有效地整合外部语言模型，并且提高了通用 transformer 架构的正则化能力。

Sep, 2022

轻量级跨语言句子表示学习

本文介绍了一种轻量级双变压器体系结构，用于生成记忆高效的跨语言句子表示。同时，还提出了一种新的跨语言语言模型，并引入了两个计算良好的句子级对比学习任务，以提高跨语言句子表示空间的对齐度，从而补偿生成任务的学习瓶颈。实验结果表明，在跨语言句子检索和多语言文档分类方面，与竞争模型相比，我们提出的新的训练任务有效性更高。

May, 2021