Apr, 2023

状态空间不足:机器翻译需要注意力

TL;DR本文介绍了最近提出的序列模型 Structured State Spaces,以及将其应用于机器翻译任务中的实验。我们发现,与 Transformer 相比,S4 在翻译长句方面存在困难。最终我们提出加入注意力机制,使得 S4 的性能优于 Transformer。