Feb, 2024

StableMask:在仅使用解码器的 Transformer 中优化因果掩码

TL;DR通过改进因果掩码的方法,提出了 StableMask,解决了 decoder-only Transformer 架构中的限制,并在语言模型中得到了显著的增强。