MUSE:面向序列到序列学习的并行多尺度注意力
该研究提出了一种名为 MUSE 的基于 Transformer 和多尺度时间传感器单元的知识追踪模型,能够有效地捕捉用户在不同时间范围内的知识状态的动态变化,并提供一种有效而强大的方法来组合本地和全局特征进行预测。该方法在 Riiid AIEd Challenge 2020 中获得了第五名。
Jan, 2021
本文提出了一种基于不同语言单元(包括子词、单词和短语)之间的关系建立多尺度 Transformer 模型 ——Universal MultiScale Transformer(UMST),实验证明它在几个测试集上都可比存在的流行基准模型获得更好的性能表现,且不影响效率。
Jun, 2022
该研究通过在自我注意模块中引入先前知识 - 多尺度结构,提出了一种 Multi-Scale Transformer,其使用多尺度多头自我注意来捕捉来自不同尺度的特征,通过对 21 个数据集进行的实验结果表明,相对于标准 Transformer,在小型和中等型数据集上,该多尺度变压器始终具有显着性能优势。
Dec, 2019
本文提出了一种新的用于无监督学习的模块化方法 MUSE,该方法使用灵活的模块来优化词义表示学习和有效的词义选择,并采用强化学习来进行联合训练。实验证明,该方法在同义词选择和语境词相似性方面具有最先进的性能。
Apr, 2017
本文将多模态注意力机制应用于图像字幕生成领域,通过在自然语言描述和图像上同时聚焦,实现了一种基于图像字幕的另一种语言描述生成方法,并在 Multi30k 数据集上取得了更好的效果。
Sep, 2016
大数据时代使大量的临床数据变得容易获得,特别是以电子健康记录(EHRs)的形式,提供了发展数据驱动诊断工具以增强临床决策的前所未有的机会。然而,将 EHRs 应用于数据驱动建模面临着使时间间隔不规则的多变量时间序列、不完整问题和数据不平衡等挑战。因此,我们提出了一种新颖的适应缺失感知的多分支自注意编码器(MUSE-Net),以应对对数据驱动疾病预测中对长期 EHRs 建模的挑战。MUSE-Net 利用带有缺失值掩码的多任务高斯过程(MGP)进行数据插补,采用多分支架构解决数据不平衡问题,并利用时间感知自注意编码器考虑长期 EHRs 中不规则的时间间隔。我们使用合成和真实数据集对提出的 MUSE-Net 进行评估。实验结果表明,我们的 MUSE-Net 优于广泛用于研究纵向信号的现有方法。
Jun, 2024
通过使用注意力机制,Transformer 模型不仅在性能上有所提升,同时还可通过可视化工具展示模型如何赋权于不同的输入元素,从而实现模型的解释和解读,本文提出了一种开源的基于多尺度可视化注意力机制的工具,并在 BERT 和 OpenAI GPT-2 上进行了演示,包括检测模型偏差、定位相关注意力头和链接神经元到模型行为等三个应用案例。
Jun, 2019
本文介绍了一种结合多头自注意力和短语建模的新型神经网络 Mg-Sa,利用 n-gram 或者句法格式训练多个注意头以关注短语,并通过短语间的交互增强结构建模弱点,实验结果表明该方法可以提高 NMT 的性能。
Sep, 2019
本文提出了多单元 Transformer (MUTE) 方法,使用多个并行单元来提高 Transformer 的表现力和多样性,实验结果表明在三个机器翻译任务中,MUTE 显著超越了传统的 Transformer 方法,在参数使用和推理速度上具有高效性。
Oct, 2020