Jan, 2021

复合词变压器:学习在动态有向超图上组合全歌曲音乐

TL;DR该论文提出了一种新型 Transformer 解码器架构,其用于不同的前馈头来模拟不同类型的 tokens,以及一种扩展 - 压缩技巧将邻近的 tokens 分组成复合单词的序列,表现出比现有模型更快和同等质量的学习能力.