ICMLJun, 2022

多尺度变形器模型的序列生成学习

TL;DR本文提出了一种基于不同语言单元(包括子词、单词和短语)之间的关系建立多尺度 Transformer 模型 ——Universal MultiScale Transformer(UMST),实验证明它在几个测试集上都可比存在的流行基准模型获得更好的性能表现,且不影响效率。