Multiformer：基于可配置头部的 Transformer 模型的直接语音翻译

ACLMay, 2022

Multiformer：基于可配置头部的 Transformer 模型的直接语音翻译

Multiformer: A Head-Configurable Transformer-Based Model for Direct Speech Translation

Gerard Sant, Gerard I. Gállego, Belen Alastruey, Marta R. Costa-Jussà

TL;DR本文提出了一种基于 Transformer 的新模型 Multiformer，它可以根据任务需要在不同的头上应用不同的注意力机制，从而有力地解决了长序列和相邻 token 冗余等问题。同时，我们发现各头权重分布均匀的模型可以取得更好的效果。

Abstract

transformer-based models have been achieving state-of-the-art results in several fields of natural language processing. However, its direct application to speech tasks is not trivial. The nature of this sequences

transformer-based models natural language processing multiformer self-attention attention mechanisms

发现论文，激发创造

Speechformer：减少直接语音翻译中的信息损失

提出了 Speechformer 的架构，该架构通过减少注意层中的内存使用，避免了初始的失真压缩，并根据更具信息的语言标准仅在较高级别上聚合信息，该架构在三种语言对 (en->de/es/nl) 上的实验表明了其有效性。

Sep, 2021

通过操作多头注意力生成多样化翻译

本文研究 Transform 模型在机器翻译中的应用，探讨其编码器 - 解码器多头注意力机制中，不同注意力头与翻译候选词的对应关系，提出一种操控头以生成多样化翻译的方法，并利用这些多样化翻译进行后向翻译以改进数据增强技术，并且不会严重降低翻译质量。实验结果表明，与这些多样化翻译的后向翻译可以显著提高翻译任务的性能，与之相关的对话响应生成任务的实验也验证了多样化的效果。

Nov, 2019

高效远程 Transformer：你需要参与更多，但不一定是每一层

提出了一种名为 MASFormer 的变种 Transformer 模型，它通过混合的注意力机制在处理长序列数据时既能捕捉到长距离依赖关系，又能在其余层使用稀疏注意力提高计算效率。实验结果表明，该模型在自然语言建模和生成任务中能够达到与全注意力的 Transformer 模型相媲美的性能，同时显著降低计算成本（多达 75%），并对长序列数据的持续训练和序列长度对下游生成任务的影响进行了研究。

Oct, 2023

基于 Conformer 的自注意力头多样性分析

本文研究了多头注意力机制在端到端自动语音识别系统中的应用，通过分析多个注意头之间的差异并探究不同的训练方法来提高多头之间的多样性，得出使用促进多头注意头多样性的辅助损失函数更有效，并在 Librispeech 数据集上实现了高达 6% 的相对语音识别准确率提升。

Sep, 2022

基于 Transformer 的机器翻译中固定编码器自注意力模式

使用简单固定的关注模式替换 Transformer 中编码器层的大多数注意力头对神经机器翻译的质量没有影响，并且在资源匮乏的情况下，甚至可以将 BLEU 评分提高 3 个点。

Feb, 2020

XNOR-FORMER: 长语音 Transformer 准确近似学习

本研究开发出一种新型的线性变压器，通过检验自我关注中关键查询产品的特性，发现其在语音识别和语音摘要方面优于现有的方法。

Oct, 2022

多头注意力的优化和泛化

使用多头自注意力机制，经过一定的初始条件和训练，可以优化和推广 Transformer 模型的核心机制，获得收敛和泛化保证。

Oct, 2023

HETFORMER：用于长文本抽取式摘要的稀疏注意力异构 Transformer

本文提出了一种基于 Transformer 的预训练模型，通过多粒度稀疏注意力机制，从长文本中捕捉语义图结构并进行提取式摘要，实验证明 HETFORMER 在 Rouge F1 上具有最先进的性能，同时使用更少的内存和参数。

Oct, 2021

Brainformers: 简单性与效率的平衡

本文介绍了一种名为 Brainformer 的复合深度神经网络模型，其中包括稀疏门控前馈层、紧密前馈层、自注意层以及不同形式的层规范化和激活函数。 Brainformer 模型表现优异且更为高效，比当前最先进的密集和稀疏的 Transformers 模型快 5 倍。在下游任务评估中，Brainformer 模型与 GLaM 模型相比，细调后 SuperGLUE 得分高出 3％。

May, 2023

分析多头自注意力：专门的头部承担重任，其余部分可被剪枝

研究了 Transformer 模型中的多头自注意力和编码器在神经机器翻译中的贡献和作用，提出了一种基于随机门和可微松弛 L0 正则化的新型剪枝方法，在不严重影响性能的情况下，成功删除了大部分注意头。

May, 2019