MUSE：面向序列到序列学习的并行多尺度注意力

Nov, 2019

MUSE：面向序列到序列学习的并行多尺度注意力

MUSE: Parallel Multi-Scale Attention for Sequence to Sequence Learning

Guangxiang Zhao, Xu Sun, Jingjing Xu, Zhiyuan Zhang, Liangchen Luo

TL;DR本研究旨在探索并提出一种并行多尺度表示学习方法，利用自注意力和点对点转换，对序列数据进行多尺度编码和建模，实现长距离和短距离结构中的机器翻译任务，该方法在三个主要机器翻译任务中表现优异，并具有加速推理的潜力。

Abstract

In sequence to sequence learning, the self-attention mechanism proves to be highly effective, and achieves significant improvements in many tasks. However, the →

sequence to sequence learning self-attention mechanism multi-scale representation learning machine translation parallelism

发现论文，激发创造

MUSE: 多尺度时间特征进化在知识追踪中的应用

该研究提出了一种名为 MUSE 的基于 Transformer 和多尺度时间传感器单元的知识追踪模型，能够有效地捕捉用户在不同时间范围内的知识状态的动态变化，并提供一种有效而强大的方法来组合本地和全局特征进行预测。该方法在 Riiid AIEd Challenge 2020 中获得了第五名。

Jan, 2021

多尺度变形器模型的序列生成学习

本文提出了一种基于不同语言单元（包括子词、单词和短语）之间的关系建立多尺度 Transformer 模型 ——Universal MultiScale Transformer（UMST），实验证明它在几个测试集上都可比存在的流行基准模型获得更好的性能表现，且不影响效率。

Jun, 2022

文本分类的多尺度自注意力

该研究通过在自我注意模块中引入先前知识 - 多尺度结构，提出了一种 Multi-Scale Transformer，其使用多尺度多头自我注意来捕捉来自不同尺度的特征，通过对 21 个数据集进行的实验结果表明，相对于标准 Transformer，在小型和中等型数据集上，该多尺度变压器始终具有显着性能优势。

Dec, 2019

无监督语义嵌入的模块化

本文提出了一种新的用于无监督学习的模块化方法 MUSE，该方法使用灵活的模块来优化词义表示学习和有效的词义选择，并采用强化学习来进行联合训练。实验证明，该方法在同义词选择和语境词相似性方面具有最先进的性能。

Apr, 2017

多模态注意力神经机器翻译

本文将多模态注意力机制应用于图像字幕生成领域，通过在自然语言描述和图像上同时聚焦，实现了一种基于图像字幕的另一种语言描述生成方法，并在 Multi30k 数据集上取得了更好的效果。

Sep, 2016

使用自我关注实现可解释的音乐标记

提出了一种基于自注意力机制的深度序列模型，用于解决音乐信息检索问题，并且相比于传统的卷积和递归神经网络方法，该模型更具可解释性且具有竞争力的结果。

Jun, 2019

缺失感知多分支自注意力编码器用于不规则纵向电子健康档案的 MUSE-Net

大数据时代使大量的临床数据变得容易获得，特别是以电子健康记录（EHRs）的形式，提供了发展数据驱动诊断工具以增强临床决策的前所未有的机会。然而，将 EHRs 应用于数据驱动建模面临着使时间间隔不规则的多变量时间序列、不完整问题和数据不平衡等挑战。因此，我们提出了一种新颖的适应缺失感知的多分支自注意编码器（MUSE-Net），以应对对数据驱动疾病预测中对长期 EHRs 建模的挑战。MUSE-Net 利用带有缺失值掩码的多任务高斯过程（MGP）进行数据插补，采用多分支架构解决数据不平衡问题，并利用时间感知自注意编码器考虑长期 EHRs 中不规则的时间间隔。我们使用合成和真实数据集对提出的 MUSE-Net 进行评估。实验结果表明，我们的 MUSE-Net 优于广泛用于研究纵向信号的现有方法。

Jun, 2024

Transformer 模型中的注意力的多尺度可视化

通过使用注意力机制，Transformer 模型不仅在性能上有所提升，同时还可通过可视化工具展示模型如何赋权于不同的输入元素，从而实现模型的解释和解读，本文提出了一种开源的基于多尺度可视化注意力机制的工具，并在 BERT 和 OpenAI GPT-2 上进行了演示，包括检测模型偏差、定位相关注意力头和链接神经元到模型行为等三个应用案例。

Jun, 2019

神经机器翻译的多粒度自注意力

本文介绍了一种结合多头自注意力和短语建模的新型神经网络 Mg-Sa，利用 n-gram 或者句法格式训练多个注意头以关注短语，并通过短语间的交互增强结构建模弱点，实验结果表明该方法可以提高 NMT 的性能。

Sep, 2019

多单元 Transformer 用于神经机器翻译

本文提出了多单元 Transformer (MUTE) 方法，使用多个并行单元来提高 Transformer 的表现力和多样性，实验结果表明在三个机器翻译任务中，MUTE 显著超越了传统的 Transformer 方法，在参数使用和推理速度上具有高效性。

Oct, 2020