Jun, 2023

快速融合低秩和核注意力

TL;DRFLuRKA 是一种新型转换器,结合了低秩和核方法的优势,能够显著提高模型性能并匹配低秩和核方法在 GLUE 上的精度表现,同时在固定时间预训练方面也比全自注意力模型表现更好。