Apr, 2024

自选注意力范围加速大型语言模型推理

TL;DR训练大型语言模型自我选择注意力跨度可以加快解决现实世界任务的自回归推理速度。