Jun, 2024

使用Delta规则并行化线性变换器来处理序列长度

TL;DR用Delta规则训练线性变压器,并结合滑动窗口和全局注意力层构建的混合模型,在语言建模和下游任务中表现出色。