多尺度变形器模型的序列生成学习

ICMLJun, 2022

多尺度变形器模型的序列生成学习

Learning Multiscale Transformer Models for Sequence Generation

Bei Li, Tong Zheng, Yi Jing, Chengbo Jiao, Tong Xiao...

TL;DR本文提出了一种基于不同语言单元（包括子词、单词和短语）之间的关系建立多尺度 Transformer 模型 ——Universal MultiScale Transformer（UMST），实验证明它在几个测试集上都可比存在的流行基准模型获得更好的性能表现，且不影响效率。

Abstract

multiscale feature hierarchies have been witnessed the success in the computer vision area. This further motivates researchers to design multiscale transformer for →

multiscale feature hierarchies transformer natural language processing self-attention mechanism word-boundary information

发现论文，激发创造

文本分类的多尺度自注意力

该研究通过在自我注意模块中引入先前知识 - 多尺度结构，提出了一种 Multi-Scale Transformer，其使用多尺度多头自我注意来捕捉来自不同尺度的特征，通过对 21 个数据集进行的实验结果表明，相对于标准 Transformer，在小型和中等型数据集上，该多尺度变压器始终具有显着性能优势。

Dec, 2019

多尺度 Transformer 语言模型

本文研究了多尺度变压器语言模型，提出了三种不同的架构，并实验性地证明了多尺度表示在内存效率，计算时间和困惑度方面的优势，具有特殊的吸引力。

May, 2020

Transformer 模型中的注意力的多尺度可视化

通过使用注意力机制，Transformer 模型不仅在性能上有所提升，同时还可通过可视化工具展示模型如何赋权于不同的输入元素，从而实现模型的解释和解读，本文提出了一种开源的基于多尺度可视化注意力机制的工具，并在 BERT 和 OpenAI GPT-2 上进行了演示，包括检测模型偏差、定位相关注意力头和链接神经元到模型行为等三个应用案例。

Jun, 2019

MUSE：面向序列到序列学习的并行多尺度注意力

本研究旨在探索并提出一种并行多尺度表示学习方法，利用自注意力和点对点转换，对序列数据进行多尺度编码和建模，实现长距离和短距离结构中的机器翻译任务，该方法在三个主要机器翻译任务中表现优异，并具有加速推理的潜力。

Nov, 2019

分层多尺度循环神经网络

本文提出了一种多尺度递归神经网络，称为分层多尺度递归神经网络，通过使用新的更新机制，在不使用显式边界信息的情况下捕获序列中的潜在分层结构，从而解决递归神经网络中的层次和时间表示问题，并在字符级别语言建模和手写序列建模上进行评估。

Sep, 2016

MUSE: 多尺度时间特征进化在知识追踪中的应用

该研究提出了一种名为 MUSE 的基于 Transformer 和多尺度时间传感器单元的知识追踪模型，能够有效地捕捉用户在不同时间范围内的知识状态的动态变化，并提供一种有效而强大的方法来组合本地和全局特征进行预测。该方法在 Riiid AIEd Challenge 2020 中获得了第五名。

Jan, 2021

CloudAttention：用于 3D 点云学习的高效多尺度注意力方案

使用集合转换器在分层框架中对点云进行形状分类和分割，实现了状态 - of-the-art 的性能，并可用于处理大规模稀疏数据。

Jul, 2022

HT-Net：用于多尺度 PDE 的层次 Transformer 操作学习模型

本文介绍了一种层次转换器方案，用于高效地学习多尺度 PDE 的解算子，通过自注意力和 H^1 损失函数，实现了对多尺度解空间的编码和解码，并在数值实验中展示了与最先进方法相比的优越性。

Oct, 2022

TranSFormer：用于机器翻译的慢速 - 快速 Transformer

本文提出了一种 Slow-Fast 双流学习模型 ——TranSFomer，将细粒度字符级特征与多尺度 Transformer 结合，显著提高了机器翻译 BLEU 指标。

May, 2023

神经机器翻译的多粒度自注意力

本文介绍了一种结合多头自注意力和短语建模的新型神经网络 Mg-Sa，利用 n-gram 或者句法格式训练多个注意头以关注短语，并通过短语间的交互增强结构建模弱点，实验结果表明该方法可以提高 NMT 的性能。

Sep, 2019