AAAIApr, 2020

用于长序列快速处理的残差混洗网络

TL;DR本文提出了一种简单、轻量级的 Shuffle-Exchange 网络变体,它是基于残差网络,采用 GELU 和 Layer Normalization,可以扩展到更长的序列,收敛更快并提供更好的准确性。通过在 MusicNet 数据集上进行音乐转录并在 LAMBADA 语言建模任务上超越原有 Shuffle-Exchange 网络,我们展示了如何将改进的 Shuffle-Exchange 网络与卷积层相结合,以建立长序列处理应用中的有用基本单元。