Nov, 2023

关于 Transformer 模型的长程能力

TL;DR通过对 Transformer 架构进行最小的修改,引入长距离任务的归纳偏差、位置性等重要特性以提升性能,并为成功捕捉长距离依赖关系确定了关键属性。