带有不一致规则化的多头注意力

EMNLPOct, 2018

Multi-Head Attention with Disagreement Regularization

Jian Li, Zhaopeng Tu, Baosong Yang, Michael R. Lyu, Tong Zhang

TL;DR本文提出基于不同类型的不一致性正则化来鼓励多头注意力模型中的多样性，实验结果表明这种方法有效且具有普适性，适用于 WMT14 英德和 WMT17 中英翻译任务。

Abstract

multi-head attention is appealing for the ability to jointly attend to information from different representation subspaces at different positions. In this work, we introduce a disagreement regularization to expli

multi-head attention disagreement regularization diversity translation tasks experimental results

发现论文，激发创造

基于多头注意力的多元化地位学习跨语言多模态表示

本文提出了一种基于视觉物体检测和不同文本语义的多语言多模态表示的模型，采用多头注意力机制对两种语言的文本语义和视觉对象进行细粒度对齐，从而学习到更好的视觉 - 语义嵌入空间，并在多个任务上展现了比其他方法更显著的性能提升。

Sep, 2019

基于协议路由的多头注意力信息聚合

本研究旨在提高多头注意力机制信息聚合的表达能力，通过路由一致性算法来迭代地更新内部表示向最终表示的分配比例，实验结果表明，该改进算法比传统线性转换方法更优秀。

Apr, 2019

基于 Conformer 的自注意力头多样性分析

本文研究了多头注意力机制在端到端自动语音识别系统中的应用，通过分析多个注意头之间的差异并探究不同的训练方法来提高多头之间的多样性，得出使用促进多头注意头多样性的辅助损失函数更有效，并在 Librispeech 数据集上实现了高达 6% 的相对语音识别准确率提升。

Sep, 2022

通过操作多头注意力生成多样化翻译

本文研究 Transform 模型在机器翻译中的应用，探讨其编码器 - 解码器多头注意力机制中，不同注意力头与翻译候选词的对应关系，提出一种操控头以生成多样化翻译的方法，并利用这些多样化翻译进行后向翻译以改进数据增强技术，并且不会严重降低翻译质量。实验结果表明，与这些多样化翻译的后向翻译可以显著提高翻译任务的性能，与之相关的对话响应生成任务的实验也验证了多样化的效果。

Nov, 2019

利用胶囊网络改进多头注意力

本文利用胶囊网络对多头注意力中缺乏的不同子空间之间的语义重叠问题进行优化，通过采用动态路由和期望最大化算法进行信息聚类和分离，从而对汉英翻译和英德翻译任务的 Transformer 模型进行改进。

Aug, 2019

多头注意力：合作而非串联

该论文提出了一种协作式多头注意力层，该方法通过共享 key/query 投影来降低注意力层中参数的数量，可以用于任何变压器体系结构，并对语言理解、机器翻译和计算机视觉方面进行了验证和实验，并可将预训练的多头注意力层重新参数化为协同注意力层，使 key 和 query 投影的大小减小了 4 倍，而准确性和速度保持不变。

Jun, 2020

跨模态注意力一致性正则化用于视觉语言关系对齐

通过跨模态注意力实现多模态视觉语言模型中的关系级对齐，进而改进现有最优方法并克服了标准测评指标中的组合泛化困境。

Dec, 2022

多头注意力的优化和泛化

使用多头自注意力机制，经过一定的初始条件和训练，可以优化和推广 Transformer 模型的核心机制，获得收敛和泛化保证。

Oct, 2023

正则化表示对齐下的跨语言口语理解

本篇论文提出了一种基于正则化和对抗训练的跨语言模型，能够在口语理解系统中实现单词层面和句子层面的跨语言表示对齐，并在少量数据和零样本情况下实现比当前最先进方法更好的性能表现。

Sep, 2020

Talking-Heads Attention

本研究介绍了 “talking-heads attention”—— 多头注意力机制的一种变体，通过在 softmax 操作之前和之后在注意力头维度上进行线性投影，只需添加少量参数和计算即可在掩码语言建模任务中提高困惑度，在迁移学习到语言理解和问题回答任务时，可以带来更好的质量。

Mar, 2020