Apr, 2024

混合深度:在基于 Transformer 的语言模型中动态分配计算资源

TL;DR本文通过动态分配计算资源到序列的特定位置,优化了模型深度中不同层级的计算分配,从而实现了对计算资源的灵活分配和预测性控制。这种方法在保持总计算预算的同时,能够以非均匀的方式在时间和模型深度维度上高效地分配计算资源,并且以相当于基准性能的情况下,大大减少了每次前向传播所需的计算量,提高了后期采样的速度。