ICLRDec, 2022

饥饿的河马:基于状态空间模型的语言建模

TL;DR通过使用合成语言建模任务,我们提出了一种新的 H3 SSM 层来弥补 SSMs 与注意力模型之间的表达能力差距,并引入 FlashConv 来提高模型在现代硬件上的训练效率并在 SuperGLUE 基准测试中优于 Transformers。