Feb, 2024
StableMask:在仅使用解码器的 Transformer 中优化因果掩码
StableMask: Refining Causal Masking in Decoder-only Transformer
Qingyu Yin, Xuzheng He, Xiang Zhuang, Yu Zhao, Jianhua Yao...
TL;DR通过改进因果掩码的方法,提出了 StableMask,解决了 decoder-only Transformer 架构中的限制,并在语言模型中得到了显著的增强。