Feb, 2024

变形金刚技巧:预计算第一层

TL;DR使用 RoPE 技巧能够提高 transformers 的推理速度,通过预计算第一层 transformer 能够降低延迟和每个词的成本。只优化了一层,实际节省的比例取决于总层数,例如对于只有 4 层的模型最大节省 25%,而对于 32 层模型最大节省 3%。