利用胶囊网络改进多头注意力

Aug, 2019

Improving Multi-Head Attention with Capsule Networks

Shuhao Gu, Yang Feng

TL;DR本文利用胶囊网络对多头注意力中缺乏的不同子空间之间的语义重叠问题进行优化，通过采用动态路由和期望最大化算法进行信息聚类和分离，从而对汉英翻译和英德翻译任务的 Transformer 模型进行改进。

Abstract

multi-head attention advances neural machine translation by working out multiple versions of attention in different subspaces, but the neglect of semantic overlapping between subspaces increases the difficulty of

multi-head attention neural machine translation capsule networks dynamic routing em routing

发现论文，激发创造

多头注意力：合作而非串联

该论文提出了一种协作式多头注意力层，该方法通过共享 key/query 投影来降低注意力层中参数的数量，可以用于任何变压器体系结构，并对语言理解、机器翻译和计算机视觉方面进行了验证和实验，并可将预训练的多头注意力层重新参数化为协同注意力层，使 key 和 query 投影的大小减小了 4 倍，而准确性和速度保持不变。

Jun, 2020

利用胶囊网络实现线性时间神经机器翻译

本研究使用动态路由的胶囊网络对线性时间神经机器翻译进行了调查，并提出了一种更加灵活的选择，表示和聚合源句子的部分 - 整体信息的方法。在英德任务和英法任务中，该方法与最先进的神经机器翻译系统获得了可比较的结果。这是关于胶囊网络在序列到序列问题上的首次实证研究。

Nov, 2018

使用查询引导的胶囊网络增强上下文建模，用于文档级翻译

本文介绍了一种基于查询引导下的胶囊网络的上下文建模方法，来帮助文档级神经机器翻译生成连贯和一致的翻译；实验结果表明，我们的方法可以在不同领域的多个数据集上显著优于强基线。

Sep, 2019

具有注意力胶囊网络的多标签关系提取

提出了一种基于胶囊网络的多标签关系提取方法，使用基于注意力机制的路由算法和滑动间隙损失函数来解决关系中部分重叠的问题，并取得了明显的性能提升。

Nov, 2018

缓解神经机器翻译中注意力头不平等

本篇论文研究表明 Transformer 中的注意力头并不相等，为解决这个问题，提出了 HeadMask 方法，在多个语言对中实现了翻译改进。

Sep, 2020

通过操作多头注意力生成多样化翻译

本文研究 Transform 模型在机器翻译中的应用，探讨其编码器 - 解码器多头注意力机制中，不同注意力头与翻译候选词的对应关系，提出一种操控头以生成多样化翻译的方法，并利用这些多样化翻译进行后向翻译以改进数据增强技术，并且不会严重降低翻译质量。实验结果表明，与这些多样化翻译的后向翻译可以显著提高翻译任务的性能，与之相关的对话响应生成任务的实验也验证了多样化的效果。

Nov, 2019

多模态机器翻译的动态上下文引导胶囊网络

本文提出了一种基于动态上下文引导胶囊网络（DCCN）的多模式机器翻译方法，通过引入上下文引导的动态路由机制，与全局和区域视觉特征组合，实现生成翻译时的可变性建模，该方法在英语 - 德语和英语 - 法语翻译多个数据集上超越了当前主流的注意力机制、全局上下文模型和多模式联合表示学习模型。

Sep, 2020

面向多标签分类的上下文感知胶囊网络

我们提出了一种改进的胶囊网络架构，包括新的路由权重初始化技术、利用条件随机场利用主要胶囊激活之间的语义关系的改进 CapsNet 设计和基于 Cholesky 变换的相关模块，为多标签分类任务提供了更好的可扩展性。

Oct, 2018

基于动态路由的关注胶囊网络用于关系提取

本研究提出了一种基于胶囊网络和注意力机制的神经网络方法，用于关系提取的多实例多标签学习，实验结果表明该方法显著提高了关系提取的精度，尤其是多实体关系提取。

Dec, 2018

多模态注意力神经机器翻译

本文将多模态注意力机制应用于图像字幕生成领域，通过在自然语言描述和图像上同时聚焦，实现了一种基于图像字幕的另一种语言描述生成方法，并在 Multi30k 数据集上取得了更好的效果。

Sep, 2016